JP3735335B2 - 類似性判断のための例題ベース検索方法及び検索システム - Google Patents

類似性判断のための例題ベース検索方法及び検索システム Download PDF

Info

Publication number
JP3735335B2
JP3735335B2 JP2002322059A JP2002322059A JP3735335B2 JP 3735335 B2 JP3735335 B2 JP 3735335B2 JP 2002322059 A JP2002322059 A JP 2002322059A JP 2002322059 A JP2002322059 A JP 2002322059A JP 3735335 B2 JP3735335 B2 JP 3735335B2
Authority
JP
Japan
Prior art keywords
paragraph
document
unit
similarity
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002322059A
Other languages
English (en)
Other versions
JP2003281186A (ja
Inventor
ジョン ス パク
ユン ジン ピ
チン サン キム
ナム ゴン ソン
ジョン ヒェオク リー
オー ウー クォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Posco Holdings Inc
Original Assignee
Posco Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Posco Co Ltd filed Critical Posco Co Ltd
Publication of JP2003281186A publication Critical patent/JP2003281186A/ja
Application granted granted Critical
Publication of JP3735335B2 publication Critical patent/JP3735335B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は文書を自動検索する例題ベース検索方法及び検索システムに関するもので、より詳しくは、文書の特定構造を利用して同一または類似する関連技術を検索する類似性判断のための例題ベース検索方法及び検索システムに関するものである。
【0002】
【従来の技術】
新技術の開発は全く新たな思想に基づきもするが、今日に至っては同一または関連技術分野の技術を利用した改良技術から生み出される場合がより多く、その内容もより複雑多様化され、その価値も増大している。
従って、産業分野においては、既に開発・発表された技術同士の同一性及び/または類似性を判断すべき場合が頻繁になってくる。
【0003】
例えば、企業や研究所などにて新技術の開発を図る場合または新技術の開発途中あるいは完成後に該技術と同一または類似な関連技術が存在するか否かを検索し、該技術が検索された関連技術に対して同一性及び類似性を有するか否かを判断する作業が行われている。
【0004】
前記のように技術同士の同一性及び類似性を判断するために従来のキーワード(keyword)検索システムを利用する場合、使用者は例題技術(例えば、新技術)を具体的に把握し例題技術に関連する技術を検索してから例題技術と検索された関連技術との同一性及び/または類似性(差異点)などを直接判断しなければならない。
【0005】
このように、従来のキーワード(keyword)検索システムを利用する場合、使用者が新たな知識を理解し且つ文書内容を確実に認知しなければならなく、例題技術と検索された関連技術との同一性及び/または類似性(差異点)などを判断するのに大変時間がかかり、また幾つかのキーワードにより検索が行われる為関連技術を見落とす可能性があり、検索の正確度が劣る問題があった。
【0006】
こうして、前記のような従来のキーワード(keyword)検索システムの問題点を解決すべく例題ベース検索(example-based retrieval)に関連した技術が提案されてきた。
【0007】
例えば、Verity社のSearch 97、Oracle社のIntermediaなどのような常用検索システム製作社にて検索システムの一部として提供するソフトウェアにかかる機能が一部具現されている。さらに、理論的にはジェラルド・サルトン(非特許文献1)やリカルドとベルチエ(非特許文献2)などの文献にも例題ベース検索のための基本的方法論が述べられている。
【0008】
一般に例題ベース検索とは、情報検索システムにおいて特定文書を探し出すためにクエリー(query)として幾つかの核心キーワードを組み合せて用いる代わりに使用者が選択した例題文書(example)をそのままクエリーとして検索する方式のことをいう。即ち、文書からキーワードを抽出して単語ベクトルで表現するが、これを索引といい、かかる単語ベクトルがキーワードの組み合せと同様の役目を果たす。
【0009】
しかし、前記常用検索システムや文献に提示された方法論においてはキーワードの取扱や文書の取扱を同一に看做し、索引過程において特定単語の出現当否だけを重視する為、単語の出現位置など文書の主題を示す重要情報が見落とされてしまう問題があった。
言い換えると、文書の特徴に対する処理を行わず文書における重要部分とそうでない部分の内容を区別しないので検索の正確率が低下する問題があった。
【0010】
かかる諸問題は文書の構造的な特徴により文書が多くのフィールド(field)を含むことから惹起されるものと看做される。
かかる事項に鑑みて幾つかの常用システムにおいては、使用者が文書を幾つかのフィールドに区分するようにさせ、使用者が望むフィールド同士の単なる関連性(similarity)を利用し検索する方式を提供している。
しかし、かかる文書部分同士の比較による検索は文書全体の内容に対する精密な処理要求に符合しないとの問題がある。
【0011】
【非特許文献1】
Gerard Salton. (1989). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Weseley, Reading, Massachusetts.
【非特許文献2】
Ricardo Baeza-Yates & Berthier Riberio-Neto.(1999).Modern information retrieval. Addison-Weseley, Reading, Seoul
【0012】
【発明が解決しようとする課題】
かかる従来技術の諸問題を解決すべく本発明者は研究を重ねその結果に基づき本発明を提案するまでに至ったもので、本発明は技術の同一性及び/または類似性をより迅速且つ正確に判断できるよう同一及び/または類似な関連技術をその類似度と共に表示する類似性判断のための例題ベース検索方法及び検索システムを提供することに目的がある。
【0013】
【課題を解決するための手段】
以下、本発明について説明する。
本発明は、関連技術文書を入力する段階、文書の特定構造分析により前記関連技術文書を単語ベクトルで表現する段階、及び前記表現された単語ベクトルを貯蔵する段階を含む索引過程;、
例題文書を入力する段階、文書の特定構造分析により前記例題文書を単語ベクトルで表現する段階、及び前記索引過程において貯蔵された関連技術文書に対する単語ベクトルと例題文書に対する単語ベクトルとの類似度を求める段階を含む検索過程を含んで成る例題ベース検索方法に関するものである。
【0014】
さらに、本発明の好ましき類似性判断のための例題ベース検索方法は例題ベース索引過程及び例題ベース検索過程を含み、
前記例題ベース索引過程は、関連技術文書を入力する段階;入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する段階;前記各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階;前記単語ベクトルで表現されたキーワードとその加重値を貯蔵する段階を含み、並びに
前記例題ベース検索過程は、例題技術の記載された例題文書を入力する段階;入力された例題文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する段階;前記各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階; 前記表現された例題文書に対する段落別単語ベクトルと前記索引過程において貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落同士の類似度を求め、その段落間類似度を用いて例題文書と関連技術文書との類似度を求める段階;及び前記求めた類似度の降冪順に関連技術文書を整列して使用者に提供する段階を含んで成る
【0015】
さらに、本発明は、関連技術文書を入力する関連技術入力部、文書の構造分析により前記関連技術入力部において入力された関連技術文書を単語ベクトルで表現する関連技術文書表現部、及び前記関連技術文書表現部において表現された単語ベクトルを貯蔵する関連技術文書貯蔵部を含む索引部;
例題技術の記載された例題文書を入力する例題文書入力部、文書の構造分析により例題文書入力部において入力された例題文書を単語ベクトルで表現する例題文書表現部、前記関連技術文書貯蔵部に貯蔵された関連技術文書に対する単語ベクトルと例題文書表現部で表現された例題文書に対する単語ベクトルを用いて例題文書に対する類似度を求める類似度演算部、及び類似度演算部から求めた類似度の降冪順に関連技術文書を整列して使用者に提供する表示部を含んで成る類似性判断のための例題ベース検索システムに関するものである。
【0016】
さらに、本発明の好ましき類似性判断のための例題ベース検索システムは、例題ベース索引部及び例題ベース検索部を含み、
前記例題ベース索引部は、関連技術文書を入力する関連技術文書入力部;前記入力部で入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する第1キーワード抽出部;前記第1キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第1単語ベクトル表現部;及び前記第1単語ベクトル表現部において単語ベクトルで表現されたキーワードとその加重値を貯蔵する単語ベクトル貯蔵部を含み、並びに
前記例題ベース検索部は、例題技術の記載された例題文書を入力する例題文書入力部;前記例題文書入力部で入力された例題文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する第2キーワード抽出部;前記第2キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第2単語ベクトル表現部;前記第2単語ベクトル表現部で表現された例題文書に対する段落別単語ベクトルと前記単語ベクトル貯蔵部に貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落同士の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書との類似度を求める類似度演算部; 及び類似度演算部において求めた類似度の降冪順に関連技術文書を整列して使用者に提供する表示部を含んで成る
【0017】
以下、本発明に対して詳しく説明する。
ここで使う「例題技術」とは類似技術が存在するか否かを判断しようとする技術のことを意味し、「関連技術」とは前記例題技術の他の全ての技術を意味するもので、関連技術には例題技術より先に公知されたものはいうまでもなくその後公知されたものも含まれる。
【0018】
ここで使う「類似性判断」とは例題技術が関連技術と同一及び/または類似するか否かを判断することを意味する。
例えば、例題技術が特許に関わる発明である場合、前記「類似性判断」は該発明の完成時点及び/または出願時点等より先あるいは後に出願された特許文書または先あるいは後に頒布された刊行物などに記載された発明(考案、技術など)などと同一及び/または類似するか否かを判断することを意味し、同一または類似性(進歩性)を前提とする特許要件(新規性、進歩性、先願関係)判断、出願当否判断、特許侵害当否判断などに適用される。
【0019】
ここで用いる用語「例題文書」は技術(発明、考案などを含む)などが記載された文書同士の同一性及び/または類似性を判断する際、他関連技術などと同一性及び/または類似性があるか否かを判断しようとする技術が記載された文書のことを意味し、「関連技術文書」とは同一性及び/または類似性があるか否かを判断しようとする技術の他の関連技術が記載された文書のことを意味する。
【0020】
前記例題文書及び関連技術文書の代表例には、一般技術文献及び技術資料、各国特許庁で要求する記載要件に応じて発明などが記載された特許文書(特許明細書など)、並びに記載内容が前記記載要件を一部充たすか(発明申告書、提案書など)全く充たさない(発明申告書、提案書など)申請文書が挙げられる。
前記特許文書などには発明または考案が記載された、出願中の非公開明細書、特許または実用新案公開公報、特許または実用新案公告公報及び特許または実用新案登録公報などが挙げられる。
さらに、前記申請文書には研究課題を整理した文書、研究結果を整理した文書、完成した技術内容を整理した文書など(職務発明申告書、提案書など)が含まれる。
【0021】
【発明の実施の形態】
以下、添付の図面に基づいて本発明による好ましき実施の形態を説明する。
本発明は既に構築されたデータベースの文書と例題文書との類似度合いを定量的に計算して使用者に提供することにより、例題文書と同一または類似な関連技術を短時間内に探し出すのに役立つ類似性判断のための例題ベース検索方法及び検索システムを提供するものである。
【0022】
図1は本発明に符合する類似性判断のための例題ベース検索システムにおける全体構成図を示す。
図1によると、本発明に符合する例題ベース検索システム100は一般の情報検索システムと同様に索引部110と検索部120とに大きく分かれる。
前記索引部110は関連技術文書が入力される関連技術文書入力部111、文書の構造分析により関連技術文書を表現する関連技術文書表現部112及び表現された文書を貯蔵する関連技術文書貯蔵部113を含み、また検索部120は例題文書が入力される例題文書入力部121、文書の特定構造分析により例題文書を表現する例題文書表現部122及び類似度演算部123を含む。
【0023】
本発明において「索引」とは、本発明の例題ベースシステムにおいて関連技術文書を検索すべく該文書を予め検索し易い構造でシステムに記録する過程のことをいい、本発明において「検索」とは、関連技術文書に関わる類似性判断などのために使用者が提示した例題文書(例題技術)を分析し索引された関連技術文書から技術的類似性を求め検索する過程のことをいう。
【0024】
一般に文書検索及び情報検索はベクトル空間モデル(vector space model)という理論に基づいている。本発明においても索引と検索をベクトル空間モデルに基づき構成する。
【0025】
本発明を説明するために、先ずベクトル空間モデルに基づいた例題ベース検索システムについて図2を参照に説明する。
図2によると、一般の例題ベース検索システム200においては、索引部210と検索部220の両方で所与された例題文書と関連文書を表現する共通過程の文書表現過程を介する。
【0026】
ベクトル空間モデルに基づく例題ベース検索システムにおいては全ての文書を単語から成るベクトルで表現する。貯蔵する文書の集合に現れる単語の数をnとすれば、文書Dはn次元の単語ベクトル(Wi、1、Wi、2、.... 、Wi、n)で表現される。
【0027】
この際、Wi、jは文書Dに対する単語Tの加重値を意味する。一般の文書検索において文書Dに対する単語Tの加重値Wi、jは単語頻度数(tf:term frequency)と文書逆頻度(idf:inverse document frequency)を利用して求める。
【0028】
文書Diにおける単語Tjの単語頻度数tfi、jは単語Tが文書Dに現れる出現回数であり、単語Tが文書の内容をどれほど代表するのかに関する尺度である。
【0029】
一方、単語Tの文書逆頻度は文書集合において単語Tが出現する文書数の比率である文書頻度(document frequency)の逆(reverse)を意味する。単語Tが現れる文書の数が少ないほど単語Tは単語Tが現れる文書を他の文書と区別させ得る能力が高い。単語Tの文書逆頻度は文書の差別性を表わす尺度として働く。
【0030】
単語頻度数と文書逆頻度を使った様々な単語加重値計算法が研究されてきた。本発明においては広く知れ渡ったINQUERYシステムの単語加重値計算法を用いる。文書Dに対する単語Tの加重値Wi、jは下記式(1)のように求める。
【数1】
Figure 0003735335
(ここで、tfi、j:文書Dに対する単語Tの頻度数、maxtf:文書Dにおいて最も頻繁に現れる単語の頻度数、N:全体の文書の数、n:単語Tが現れる文書の数)
【0031】
前記式(1)により文書に現れる各単語の加重値を求めれば文書を単語と単語加重値で表現することができる。
【0032】
図2によると、索引部210を成す関連技術文書入力部211に入力された関連技術文書を第1文書表現部212において単語と単語加重値で表現する段階を経た後、該文書表現をシステムに迅速且つ容易な検索に適すよう記録すべく、文書貯蔵部213において逆索引ファイル(inverted indexing file)貯蔵構造で貯蔵する逆索引ファイル貯蔵段階を経ることになる。前記逆索引ファイル貯蔵段階は情報検索において伝統的に用いられてきた。
【0033】
一方、例題ベース検索システムの検索部220においては、図2によると、前記式(1)により例題文書入力部221に入力された例題文書を第2文書表現部222において単語とその加重値から成るベクトルで表現した後、文書−文書類似度演算部223において前記文書貯蔵部213に既に貯蔵された関連文書のベクトル表現と比較して類似度を求める文書−文書類似度の計算過程を経てから、表示部において類似度が0より大きい関連文書を類似度順に整列して使用者に提供することになる。
【0034】
索引過程において与えられた例題文書Dと貯蔵された各関連文書Dとの類似度[sim(D、D)]は伝統的に下記式(2)のコサイン類似度(cosine similarity)式及び下記式(3)の内的類似度(inner product similarity)式を用いて求める。
【0035】
【数2】
Figure 0003735335
(ここで、Wx、j:文書Dに対する単語Tの加重値、Wi、j:文書Dに対する単語Tの加重値)
【0036】
【数3】
Figure 0003735335
(ここで、Wx、j:文書Dに対する単語Tの加重値、Wi、j:文書Dに対する単語Tの加重値)
【0037】
本発明は、図1及び図2から判るように例題ベース検索方法において索引過程と検索過程における文書表現段階と検索過程における類似度を求める段階を改善したものである。
即ち、本発明の改善ポイントは、図1に示すように例題ベース索引過程と例題ベース検索過程において文書表現を例題文書の特徴的な構造把握に基づいて行い、さらに例題ベース検索過程において類似度を例題文書の特徴的な構造把握に基づく文書表現を用いて求めることである。
【0038】
本発明による例題ベース検索のための検索システムの一例を図3に示す。
図3によると、本発明の検索システム300は例題ベース索引部310及び例題ベース検索部320を含み、前記例題ベース索引部310は関連技術文書を入力する関連技術文書入力部311、第1キーワード抽出部312、第1単語ベクトル表現部313及び単語ベクトル貯蔵部314を含む。
【0039】
前記第1キーワード抽出部312は、前記入力部で入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出するよう構成され、前記第1単語ベクトル表現部313は、前記第1キーワード抽出部312において各段落から抽出されたキーワードに対する各段落内での加重値を求めて段落別にキーワード及びその加重値を単語ベクトルで表現するよう構成される。
【0040】
さらに、前記単語ベクトル貯蔵部314は前記第1単語ベクトル表現部313において単語ベクトルで表現されたキーワードとその加重値を貯蔵するよう構成される。
【0041】
一方、前記例題ベース検索部320は例題技術の記載された例題文書を入力する例題文書入力部321、第2キーワード抽出部322、第2単語ベクトル表現部323、類似度演算部324、及び表示部325を含む。
【0042】
前記第2キーワード抽出部322は、前記例題文書入力部321で入力された例題文書(例えば、新技術など)において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出するように構成され、前記第2単語ベクトル表現部323は、前記第2キーワード抽出部322において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現するよう構成される。
【0043】
さらに、前記類似度演算部324は、前記第2単語ベクトル表現部323で表現された例題文書に対する段落別単語ベクトルと前記単語ベクトル貯蔵部314に貯蔵された関連技術文書に対する段落別単位ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書との類似度を求めるよう構成され、さらに前記表示部325は類似度演算部324で求めた類似度の降冪順に関連技術文書を整列して使用者に提供するよう構成される。
【0044】
以下、図3の検索システムに基づき本発明により検索する方法について説明する。
【0045】
本発明により例題ベース検索を行うためには、先ず索引部310の関連技術文書入力部311に関連技術文書を入力する。
次いで、入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを第1キーワード抽出部312で抽出する。
次いで、前記のように各段落から抽出されたキーワードに対する各段落内での加重値を求め、段落別にキーワード及びその加重値を第1単語ベクトル表現部313において単語ベクトルで表現する。
次いで、前記単語ベクトルで表現されたキーワードとその加重値を単語ベクトル貯蔵部314に貯蔵する。
【0046】
次いで、例題技術の記載された例題文書を例題文書入力部321に入力する。
次いで、入力された例題文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを第2キーワード抽出部322で抽出する。
次いで、前記各段落から抽出されたキーワードに対する各段落内での加重値を求め、段落別にキーワード及びその加重値を第2単語ベクトル表現部323において単語ベクトルで表現する。
次いで、類似度演算部324において前記のように表現された例題文書に対する段落別単語ベクトルと前記索引過程において貯蔵された関連技術文書に対する段落別単位ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書間の類似度を求める。
次いで、表示部325において前記求めた類似度の降冪順に関連技術文書を整列して使用者に提供するのである。
【0047】
図4には、例題文書入力部121に入力された例題文書に対して文書の構造分析により段落を区分する段落区分部1221及び区分された段落別に文書を表現(単語加重値を設定)する段落別文書表現部1222を含んで成る本発明の例題文書表現部122の一例を示してある。
【0048】
図4によると、本発明の類似性判断のための例題ベース検索方法において、索引過程と検索過程に共通に含まれる、文書の特徴的な構造把握による文書表現方法は大きく分けると2段階の過程から成る。
即ち、図4によると、本発明に符合する特許構造分析による文書表現方法は、例題文書入力部121に入力された例題文書に対して例題文書表現部122の段落区分部1221で文書の特徴的な構造分析により段落を区分する段階及び段落別文書表現部1222で段落別に文書を表現(単語加重値を設定)する段階から成る。
【0049】
例えば、前記例題技術が特許関連発明(以下、「例題発明」ともいう)の場合には次のように行うことができる。
即ち、前記例題発明の記載された例題文書を本発明により表現するためには先ず、入力された各例題文書を特許構造把握により段落に区分するのであるが、その例として次のような題目により段落を区分(段落化)することが挙げられる。
1.発明の名称
2.要約書
3.索引語:発明の名称の他の重要なキーワードを文書作成者が書き込む場合
4.図面の詳細な説明
5.本発明の詳細な説明:下記のように「関連技術、発明の目的、構成、作用、効果、利用分野」の区分が具体的に記述されない形で記述された場合に適用
6.関連技術及び発明の技術分野
7.本発明が果たそうとする技術的課題(または発明の目的):一部特許文書において「発明目的及び構成」または「発明の目的、作用及び効果」などの形態で下記構造のように現れる場合があるが、かかる場合には最も先の記述である「発明の目的」に区分する。
8.発明の構成:「発明の目的」に係り説明したように、「発明の構成及び作用」などの形態で作成された場合には「発明の構成」に区分する。
9.発明の作用:同じく「発明の作用及び効果」などの形態である場合、「発明の作用」に区分する。
10.発明の効果:同じく「発明の効果及び利用分野」などの場合には、「発明の効果」に区分する。
11.発明の利用分野
12.構造把握ができない内容:具体的に如何なる特許構造に所属するかが明確に把握されない全ての内容をこの構造に分類する。非構造的な特許文書の場合には全内容がこの構造に区分される。
13.特許請求範囲の各請求項
入力された例題文書において、このような段落は特許庁が要求する記載要件を充たす出願形式に応じた特許文書(特許明細書など)の場合、各段落の題目により容易に区分可能である。
【0050】
とりわけ、特許庁が要求するSGML(Standard Generalized Markup Language)から成る特許文書やXML(Extensible Markup Language)などにより作成された特許文書においては段落題目及び段落を区別し易いので、前記段落を容易に区別することができる。
【0051】
このように段落を容易に区別できるマークアップ言語(Markup Language)で作成された特許文書の場合には、本発明において段落区分部1221を行うことなく直接段落文書表現部1222において段落別に単語ベクトルで表現して全体文書を表現する。
【0052】
前記のように段落を容易に区分できない場合には、文書において特定段落を探し出すために各段落の題目を探す方法が必要となる。
例えば、例題発明の場合には特許庁が要求する記載要件を充たす文書及び、とりわけ記載要件を一部充たした、または全く充たさない文書において特定段落を探すために各段落の題目を探す方法が必要である。
【0053】
本発明により技術文書の段落題目を探す好ましきシステム及び方法の一例を図5及び図6に夫々示す。
【0054】
図5には本発明に符合する好ましき段落題目抽出システムの一例を示す。
図5によると、本発明に符合する好ましき段落題目抽出システム400は、文章抽出部410、語節抽出部420、段落題目表示部430、選択部440、段落題目当否判断部450、及び段落題目抽出部460を含む。
【0055】
前記文章抽出部410は、夫々入力された関連技術文書または例題文書から文章を抽出するよう構成され、前記語節抽出部420は前記文章抽出部410から抽出された文章から語節を抽出するよう構成され、そして段落題目表示部430は前記語節抽出部420において抽出された語節が構造判断規則に該当する段落題目を表示するよう構成される。
【0056】
前記選択部440は、前記段落題目表示部において段落題目表示過程が完了した文章中最も多い語節と一致する段落題目を選択するよう構成され、前記段落題目当否判断部450は前記選択部440で選択された語節に対して一致する語節数/全体語節数の比が一定値以上、好ましくは0.8以上か判断して一定値(0.8)以上であれば新たな段落題目として判断し、その比が一定値(0.8)未満であれば関連段落に含ませるよう構成し、前記段落題目抽出部460は段落題目当否判断部450において段落題目として判断されたものを段落題目に抽出するよう構成される。
【0057】
前記段落題目抽出システムは前記第1キーワード抽出部312及び第2キーワード抽出部322に夫々具備することが好ましい。
【0058】
図5に示す段落題目抽出システムを用いて例題文書及び関連技術文書の段落題目を抽出する過程を図6に基づき説明する。
【0059】
図6によると、本発明により例題文書または関連技術文書の段落題目を探すためには先ず、文章抽出部410において入力例題文書または関連技術文書から文章を抽出した後(段階510)、語節抽出部420において抽出された文章から語節を抽出する(段階520)。本発明においては抽出される文章の単位にはリターン(return)文字で区分される単位を用いることが好ましい。
次いで、段落題目表示部430において前記のように抽出された語節が段落判断規則に該当する段落題目を表示して蓄積する(段階530)。
前記語節抽出及び段落題目表示過程を抽出された文章が終わるまで繰り返し行う(段階540)。
【0060】
次いで、抽出された文章に対して段落題目表示過程が完了すると、選択部440において文章中最も多い語節に一致する段落題目を選択する(段階550)。
次いで、段落題目当否判断部450において前記のように選択された語節に対して一致した語節数/全体語節数の比が一定値以上(図6には0.8以上としている)であるかを判断して、0.8以上であれば新たな段落題目として判断し、その比が0.8未満であれば関連段落に含ませる(段階560)。
次いで、段落題目当否判断部450において段落題目として判断されたものは段落題目抽出部460において段落題目に抽出(生成)する(段階570)。
前記過程を文書の最終文章まで繰り返し行うことにより例題文書に対する段落題目を検査することができる(段階580)。
【0061】
以下、本発明により抽出された文章が新たな段落の始まりを知らせる段落題目であるか検査する過程、即ち抽出された文章から段落題目を抽出する過程の一例を説明する。
【0062】
前記段落題目であるか検査するための段落判断規則の好ましき例として次のような構成を挙げられる。
[段落名][手掛り単語集合(相互間OR関係)][一致度合い][必要度合い]$
・[段落名]:次の規則が一致する場合の特定段落を指す
・[手掛り単語集合]:端緒となる単語の羅列で、共に羅列される場合はそれらの中のいずれかが一致すればよいという意味である。即ち、ORの関係である。
・[一致度合い]:3種の一致度合いがある。「+」表示は手掛り単語集合の単語と正確に入力語節が完全一致しなければならず、「−」表示は手掛り単語と部分一致しなければならず、「=」表示は手掛り単語が現れさえすれば該段落が確実に一致することを意味する。即ち、他規則を適用する必要無くその構造の初文章であることが明確に分かることを意味する。
・[必要度合い]:2つのタイプがある。「y」タイプはその構造として認識されるために必ず現在の規則が充たされるべきであることを意味し、「n」タイプは現在の構造として認識されるために必ず必要なものではなく、有り得ることを意味する。
・$:一規則の終を区分する認識子である。
【0063】
抽出された文章が段落題目であるかを検査するためには先ず、抽出された文章から語節を抽出し、抽出された各語節が前記各規則と比較して一致するかを把握する。
例えば、「発明の詳細な説明」の構造を把握するための規則は次のとおりである。
6 { 図面 図案 図名 面の 図面の簡単な 図 } − y $
6 { 添付 内容 説明 名称 氏名 簡単化 説明図 書名 構成 } − y $
6 { 簡単な 詳細な } + n $
6 { 考案 発明 } + n $
6 { 各 本 } − n $
6 { 主要 } − n $
6 { 対する } + n $
6 { 符合 } − n $
6 { 部分 } − n $
【0064】
前記例において「6」は「図面の詳細な説明」を示す「段落名」フィールド(field)である。そして、最初の規則は「図面、図案、図名、面の、図面の簡単な、図」のように6つの手掛り単語に言及しながら、これらが該入力語節と「部分一致」してもよいことを意味する。ここで「部分一致」とは、所与された文章が「図面の詳細な説明」である場合、「図面」という手掛り単語が「図面の」という語節と一部一致する場合を意味する。
【0065】
第三の規則は「+」の完全一致とされ、先の入力文章の「詳細な」という語節に適用される。もしこの場合、所与された文章が「図面が詳細であれば説明がより…」であったとすると、第一の規則が「図面が」で一致する。しかし、第三の規則がたとえ「詳細であれば」で部分一致しても、如何なる単語とも完全一致にならないので適用されない。
【0066】
先の「図面の詳細な説明」に対する規則中必ず適用されべき規則は「y」で表示された第一と第二の規則である。即ち、入力文章が「図面の詳細な説明」に対する段落の始まり、即ち段落題目であることを示すためには、入力文章中この二つの規則を充たす語節が必ず存在しなければならない。
【0067】
文書の特徴的構造分析過程において最も重要な規則は、入力文章の全体語節中80%以上の語節が一つの段落を示す規則により正しく検査されてこそ新たな段落題目とすることである。例えば、「図面の説明で述べたように、図面1は…」のような文章が入力文章である場合、「図面」と「説明」が先の第一と第二の規則に適用され「発明の詳細な説明」に該当する段落題目となる可能性が高いが、全体文章において残りの単語がその他の規則により適用されない為その構造、即ち段落題目に分析されないのである。
【0068】
次いで、前記のように文書の特徴的構造把握により区分された段落別に単語を抽出してその加重値を求め、単語及び加重値を単語ベクトルで表現する。
【0069】
本発明においては関連例題ベース検索において文書を一つのベクトルで表示するのと違って、文書を諸段落のベクトルで表現する。
例えば、例題技術が特許関連発明の場合には前述のように例題文書(特許文書)を13個の段落で定義することができ、その中13段落である特許請求範囲の各請求項は特許文書により異なる。したがって、本発明においては各特許文書当り少なくとも13個以上のベクトルが存在することになり、文書を13個以上のベクトルで表現することができる。
【0070】
したがって、特許文書Dは段落集合の(Fi1、Fi2、…、Fim)で表記するとmは13以上の値となる。
【0071】
さらに、各段落Fijはn次元の単語ベクトル(Wij、1、Wij、2、…、Wij、n)で表現される。この際、Wij、qは文書Dの段落Fijにおける単語Tの加重値を示す。したがって、関連加重値計算法の前記式(1)を下記式(4)のように変更しなければならない。
【0072】
【数4】
Figure 0003735335
(ここで、tfij、q:文書Dの段落Fijにおける単語Tの頻度数、maxtf:文書Dの段落Fijにおいて最も多く現れる単語の頻度数、N:全体の文書の数、n:単語Tが現れる文書の数)
【0073】
前記文書の特徴的な構造分析(把握)による文書表現方法は、本発明の例題ベース索引部及び検索部に共通に用いられる。かかる表現方法を例題ベース索引においては、前記索引部の関連技術文書貯蔵部に従来の方法の如く逆索引ファイル貯蔵構造として貯蔵して、検索の際迅速に検索可能にさせることが好ましい。
【0074】
本発明に符合する例題ベース検索過程は、図1のように検索部の類似度演算部において後述の如く技術的類似度を判断する段階を含む。例えば、新たな発明の特許性を判断する場合、技術的類似度、即ち特許的類似度判断過程は次のとおりである。
【0075】
本発明の例題ベース検索過程においては、特許性判断に役立つ特許的類似度計算を可能にすべく、特許専担者が特許性判断を下す論理的行為に倣う。
【0076】
通常、特許専担者は新たな発明の特許性を判断するために、各請求項が関連特許において同じ形態で現れる場合に最も先に両特許間の特許性が一致するものと判断する。そして、両特許の目的及び効果と題目が類似する場合、その特許性が類似すると看做し、次いで各請求項、発明の構成と作用が類似するかを検査する。残りの内容はその後調べる。
【0077】
したがって、本発明においても両特許文書の特許的類似性判断は、最も先に両特許の請求項中一つでも100%一致すれば両特許の特許的類似性を手放しで100%とし、そうでなければ重要段落が類似するほど両特許間には高い特許的類似性があると看做す仕方で行われることが好ましい。
【0078】
例えば、例題文書と関連技術文書が特許文書(特許明細書)である場合、例題文書と関連技術文書との類似度判断は次のように行うことが好ましい。
【0079】
前記両文書の特許請求範囲段落中同一請求項が一つでも存在すればその両特許は同一なものと判断し、前記両文書の特許請求範囲段落中同一請求項が一項も無い場合には類似度判断を次のように行う。
【0080】
即ち、両文書の「発明の名称、発明の目的及び発明の効果」段落同士の類似度を求め、こうして求めた類似度中最も高いものをこれら段落の代表類似度値に選定した後最も高い加重値を与え、「要約書、発明の構成、発明の作用、請求範囲」段落同士の類似度を求め、こうして求めた類似度中最も高いものをこれら段落の代表類似度値として選定した後加重値を与え、また残りの段落同士の類似度を求めてこれらの平均値を代表類似度値として選定した後最も低い加重値を与える。前記各代表類似度値に夫々加重値を乗じた値を合わせた値を比較して類似度を判断する。
【0081】
一方、本発明による各段落間類似性判断は、前記式(2)と前記式(3)において文書ベクトルを段落ベクトルに変更した類似度式を用いて行うことができる。
本発明においては前記式(2)のコサイン類似度式を用いて段落間類似度を求めることが好ましい。
【0082】
例題文書Dのj番目の段落Fijと関連技術文書Dのq番目の段落Fpq間の類似度sim_F(Fij、Fpq)は下記式(5)のように定義することができる。
【数5】
Figure 0003735335
(ここで、Wij、l:単語Tが文書Dのj番目の段落Fijにおける加重値、Wpq、l:単語Tが文書Dのj番目の段落Fpqにおける加重値)
【0083】
前記式(5)はコサイン類似度式を使うので、段落間類似度sim_F(Fij、Fpq)は常に0と1の間の値となる。両段落間の類似度sim_F(Fij、Fpq)が1の場合は100%相互一致するベクトルであることを意味する。
【0084】
段落表記法Fijにおいてjは先に説明した段落把握から得られる段落順序と一致する。したがって、例えば、Fi1は特許文書Dの「発明の名称」段落を意味し、Fi2は特許文書Dの「要約書」段落を意味する。
【0085】
次いで、前記のように段落間類似度を求めてから、該段落間類似度を用いて下記式(6)により所与された例題文書(例題技術)Dと関連技術文書(関連技術)D間の技術的類似度sim_P(D、D)を求めることが好ましい。
【数6】
Figure 0003735335
【0086】
例えば、前記例題文書と関連技術文書が特許文書である場合、前記式(6)の最初の項は、両特許の請求項中いずれかが一致すれば両特許間の特許的類似度sim_P(D、D)が1となり完全に特許性が一致すると看做すことを数式で表現したものである。そして、第二の項はそうでない場合、前述した段落重要度により求めることを意味する。この際、αとβ、μは各段落グループの重要度を示す。従って、αとβ、μの和は常に1にならなければならない。本発明においては実験によりα値を0.5、β値を0.3、μ値を0.2と定める。
【0087】
したがって、第二の項は、例えば「発明の目的」と「発明の効果」と「発明の題目」の類似度中最も高い値に加重値0.5を乗じた値と、「要約書」と「発明の構成」と「発明の目的」と「請求項」の和から最も高い値に加重値0.3を乗じた値、そして最後に残りの段落の類似度平均に0.2を乗じた値を全て合わせた値により両特許間特許的類似度を求める数式を意味するのである。
【0088】
前記数式(6)は一例に過ぎず、例えば各段落グループの重要度を3つでなく2つまたは4つ以上に設定でき、その重要度の値も変化させ得ることは言うまでもない。
【0089】
前記式(6)により例題文書Dに対する全ての関連技術文書の技術的類似度を求めると、これを降冪順に整列して使用者に提供する。そうすると、使用者は例題技術と技術的に類似する順に関連技術を検索できるようになる。
【0090】
なお、本発明の好ましき実施例は例示を目的として開示されたものであり、当業者ならば本発明の思想と範囲内において多様な修正、変更、付加などが可能で、かかる修正・変更などは本発明の技術的範囲に属するものと看做されるべきである。
【0091】
【発明の効果】
上述したように、本発明は技術的に類似する関連文書をその類似度合いと共に表示することにより類似性を容易且つ迅速に判断させ得る効果を奏する。
さらに、本発明を新たな発明の申告または出願時に用いる場合、特許性判断専担者や発明者が類似する関連文書をその類似度合いと共に見比べることができるので、発明の特許性などを容易且つ迅速に判断させ得る効果を奏する。
さらに、本発明は技術が記載された文書を直接本発明システムに提供することができるので、使用者が技術に対する知識を習得及び理解する必要が無く検索時間を大幅に短縮させ得る効果を奏する。
【図面の簡単な説明】
【図1】本発明に符合する類似性判断のための例題ベース検索システムにおける全体構成図である。
【図2】通常の例題ベース検索システムにおける全体構成図である。
【図3】本発明における好ましき例題ベース検索システムの一例を示す構成図である。
【図4】本発明による文書の特定構造把握により文書を表現する方法の一例を示すフロー図である。
【図5】本発明による文書の特定構造把握により段落題目を抽出する段落題目抽出システムの一例を示す構成図である。
【図6】本発明による文書の特定構造把握により段落題目を抽出する方法の一例を示すフロー図である。
【符号の説明】
100、300…検索システム、
110、310…索引部、
111、311…関連技術文書入力部、
112…関連技術文書表現部、
113…関連技術文書貯蔵部、
120、320…検索部、
121、321…例題文書入力部、
122…例題文書表現部、
123、324…類似度演算部、
312…第1キーワード抽出部、
313…第1単語ベクトル表現部、
314…単語ベクトル貯蔵部、
322…第2キーワード抽出部、
323…第2単語ベクトル表現部、
325…表示部、
400…段落題目抽出システム、
410…文章抽出部、
420…語節抽出部、
430…段落題目表示部、
440…選択部、
450…段落題目当否判断部、
460…段落題目抽出部。

Claims (6)

  1. 例題ベース索引部及び例題ベース検索部を含む例題ベース検索システムを用いる例題ベース検索方法であって、
    関連技術文書入力部、第1キーワード抽出部、第1単語ベクトル表現部及び単語ベクトル貯蔵部を含む例題ベース索引部で行われる例題ベース索引過程及び例題文書入力部、第2キーワード抽出部、第2単語ベクトル表現部、類似度演算部、及び表示部を含む例題ベース検索部で行われる例題ベース検索過程を含み、
    前記例題ベース索引過程は関連技術文書を関連技術文書入力部に入力する段階;
    第1キーワード抽出部で、入力された関連技術文書において文書の段落題目に基づいて段落を区分し、区分された段落別にキーワードを抽出する段階;
    第1単語ベクトル表現部で、前記のように各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階;及び
    単語ベクトル貯蔵部で、前記のように単語ベクトルで表現されたキーワードとその加重値を貯蔵する段階を含み、並びに
    前記例題ベース検索過程は例題技術が記載された例題文書を例題文書入力部に入力する段階;
    第2キーワード抽出部で、入力された例題文書において文書の段落題目に基づいて段落を区分し、区分された段落別にキーワードを抽出する段階;
    第2単語ベクトル表現部で、前記のように各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階;及び
    類似度演算部で、前記のように表現された例題文書に対する段落別単語ベクトルと前記索引過程において貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書間の類似度を求める段階;及び
    表示部で、前記のように求めた類似度の降冪順に関連技術文書を整列して使用者に提供する段階を含んで成り、
    前記段落題目に基づいて段落を区分し、段落別にキーワードを抽出する段階は、
    文章抽出部、語節抽出部、段落題目表示部、選択部、段落題目当否判断部、及び段落題目抽出部を含む段落題目抽出システムを用いて、
    文章抽出部で、夫々入力された関連技術文書または例題文書から文章を抽出した後、語節抽出部で、抽出された文章から語節を抽出する段階;
    段落題目表示部で、前記のように抽出された語節が構造判断規則に該当する段落題目を表示する段階;
    前記語節抽出及び段落題目表示過程を抽出された文章が終わるまで繰り返し行う段階;
    抽出された文章に対して段落題目表示過程が完了すると、選択部で、文章中最も多い語節と一致する段落題目を選択する段階;
    段落題目当否判断部で、前記のように選択された語節に対して一致する語節数 / 全体語節数の比が0 . 8以上であるかを判断し、0 . 8以上であれば新たな段落題目として判断し、その比が0 . 8未満であれば関連段落に含ませる段階;及び
    段落題目抽出部で、前記過程を文書の最終文章まで繰り返し行い例題文書に対する段落題目を抽出する段階を含む
    ことを特徴とする類似性判断のための例題ベース検索方法。
  2. 前記索引過程及び検索過程において、関連技術文書と例題文書の段落区分が各国特許庁が要求する記載要件を充たした特許文書に記載される段落題目に基づいて行われることを特徴とする請求項1に記載の類似性判断のための例題ベース検索方法。
  3. 前記構造判断規則が下記のように構成されることを特徴とする請求項1又は請求項2に記載の類似性判断のための例題ベース検索方法。
    [段落名][手掛り単語集合(相互間OR関係)][一致度合い][必要度合い] $
    {ここで、[段落名]:次の規則が一致する場合の特定段落を示す、[手掛り単語集合]:端緒になる単語の羅列で、共に羅列された場合はそれらの中からいずれかが一致するだけでもよいという意味、即ちORの関係である、[一致度合い]:3種の一致度合いがあるが、「+」表示は手掛り単語集合の単語と正確に入力語節が完全一致しなければならず、「−」表示は手掛り単語と部分一致しなければならず、「=」の場合は手掛り単語が現れさえすれば該段落が確実に一致するという意味で、即ち他規則を適用する必要無くその構造の初文章であることを明確に判断可能なことを意味する、[必要度合い]:2タイプがあるが、「y」タイプはその構造として認識されるために必ず現在の規則が満足されるべきという意味で、「n」タイプは現在の構造として認識されるために必ず必要なものではなく、有り得ることを意味する、$:一規則の終を区分する認識子。}
  4. 例題文書と関連技術文書は特許明細書から成り、例題文書と関連技術文書間の類似度は、
    前記両文書の特許請求範囲段落中同一請求項が一つでも存在すればその両特許は同一なものと判断する段階;及び
    両文書の特許請求範囲段落中同一請求項が一項も無い場合、両文書の「発明の名称、発明の目的及び発明の効果」段落間の類似度を求め、こうして求めた類似度中最も高いものをこれらの段落の代表類似度値に選定した後最も高い加重値を与え、「要約書、発明の構成、発明の作用、請求範囲」段落間の類似度を求め、こうして求めた類似度中最も高いものをこれら段落の代表類似度値に選定した後加重値を与え、そして残りの段落間の類似度を求め、これらの平均値を代表類似度値に選定した後最も低い加重値を与え、前記代表類似度値に各加重値を乗じた値を合わせた値を比較して類似度を判断する段階により判断されることを特徴とする請求項1から請求項3のいずれか1項に記載の類似性判断のための例題ベース検索方法。
  5. 例題ベース索引部及び例題ベース検索部を含み、
    前記例題ベース索引部は関連技術文書を入力する関連技術文書入力部;
    前記入力部において入力された関連技術文書において文書の段落題目に基づき段落を区分し、区分された段落別にキーワードを抽出する第1キーワード抽出部;
    前記第1キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第1単語ベクトル表現部;及び
    前記第1単語ベクトル表現部において単語ベクトルで表現されたキーワードとその加重値を貯蔵する単語ベクトル貯蔵部を含み、並びに
    前記例題ベース検索部は例題技術が記載された例題文書を入力する例題文書入力部;
    前記例題文書入力部で入力された例題文書において文書の段落題目に基づき段落を区分し、区分された段落別にキーワードを抽出する第2キーワード抽出部;
    前記第2キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第2単語ベクトル表現部;
    前記第2単語ベクトル表現部において表現された例題文書に対する段落別単語ベクトルと前記単語ベクトル貯蔵部に貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書との類似度を求める類似度演算部; 及び類似度演算部により求めた類似度の降冪順に関連技術文書を整列して使用者に提供する表示部を含んで成り、
    前記第1キーワード抽出部及び第2キーワード抽出部は、
    夫々入力された関連技術文書または例題文書から文章を抽出する文章抽出部;
    前記文章抽出部から抽出された文章から語節を抽出する語節抽出部;
    前記語節抽出部から抽出された語節が構造判断規則に該当する段落題目を表示する段落題目表示部;
    前記段落題目表示部において段落題目表示過程が完了された文章中最も多くの語節と一致した段落題目を選択する選択部;
    前記選択部において選択された語節に対して一致する語節数 / 全体語節数の比が0 . 8以上であるかを判断し、0 . 8以上であれば新たな段落題目として判断し、その比が0 . 8未満であれば関連段落に含ませる段落題目当否判断部;及び
    段落題目当否判断部において段落題目として判断されたものを段落題目に抽出する段落題目抽出部を含んで成る段落題目抽出システムを含む
    ことを特徴とする類似性判断のための例題ベース検索システム。
  6. 前記第1キーワード抽出部及び第2キーワード抽出部は、夫々関連技術文書と例題文書の段落区分を各国特許庁が要求する記載要件を満足する特許文書に記載される段落題目に基づき行うよう構成されることを特徴とする請求項に記載の類似性判断のための例題ベース検索システム。
JP2002322059A 2001-11-13 2002-11-06 類似性判断のための例題ベース検索方法及び検索システム Expired - Fee Related JP3735335B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020010070541A KR100685023B1 (ko) 2001-11-13 2001-11-13 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR2001-070541 2001-11-13

Publications (2)

Publication Number Publication Date
JP2003281186A JP2003281186A (ja) 2003-10-03
JP3735335B2 true JP3735335B2 (ja) 2006-01-18

Family

ID=29244680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002322059A Expired - Fee Related JP3735335B2 (ja) 2001-11-13 2002-11-06 類似性判断のための例題ベース検索方法及び検索システム

Country Status (2)

Country Link
JP (1) JP3735335B2 (ja)
KR (1) KR100685023B1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100826014B1 (ko) * 2006-04-13 2008-04-28 엘지전자 주식회사 문서 관리 시스템 및 그 방법
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100862587B1 (ko) 2007-03-28 2008-10-09 인하대학교 산학협력단 엑스엠엘 문서 유사도 측정 장치 및 그 방법
KR101259414B1 (ko) 2012-03-20 2013-05-10 한국과학기술정보연구원 제품 수요/공급 연결망을 위한 데이터베이스 구축 방법 및 시스템
KR101243054B1 (ko) 2012-07-06 2013-03-13 한국과학기술정보연구원 웹 검색 기반 용어 인식 방법 및 장치
KR101413444B1 (ko) * 2013-04-05 2014-07-01 한국과학기술원 문서 분석 방법
US20170132731A1 (en) * 2014-07-18 2017-05-11 Fronteo, Inc. Intellectual property evaluation system, intellectual property evaluation system control method, and intellectual property evaluation program
KR101629210B1 (ko) * 2015-01-30 2016-06-13 인하대학교 산학협력단 온라인 서비스가 가능한 참고문헌 인용부호 자동부착 지원 시스템 및 서비스 제공 방법
KR101753768B1 (ko) * 2015-10-01 2017-07-04 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR101706300B1 (ko) 2015-10-13 2017-02-14 포항공과대학교 산학협력단 기술용어 개념계층도 생성 장치 및 방법
JP6198866B2 (ja) * 2016-02-05 2017-09-20 雲拓科技有限公司 特許検索方法
WO2017149711A1 (ja) * 2016-03-02 2017-09-08 株式会社日立製作所 文書管理装置および文書管理方法
JP6188172B1 (ja) * 2016-03-15 2017-08-30 和之 白井 特許要件適否予測装置および特許要件適否予測プログラム
CN107544982B (zh) * 2016-06-24 2022-12-02 中兴通讯股份有限公司 文本信息处理方法、装置及终端
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
JP2018077604A (ja) * 2016-11-08 2018-05-17 株式会社Personal AI 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
US11151325B2 (en) * 2019-03-22 2021-10-19 Servicenow, Inc. Determining semantic similarity of texts based on sub-sections thereof
CN110175220B (zh) * 2019-05-16 2023-02-17 镇江市高等专科学校 一种基于关键词位置结构分布的文档相似性度量方法及系统
KR102187554B1 (ko) * 2019-08-27 2020-12-07 주식회사 한글과컴퓨터 스프레드시트 상에서 지정된 두 영역 간의 유사도 측정이 가능한 전자 장치 및 그 동작 방법
CN118170927B (zh) * 2024-05-10 2024-08-23 山东圣剑医学研究有限公司 一种用于ai数字人的科研资料知识图谱构建方法
CN118520504B (zh) * 2024-07-19 2024-10-15 泰安市东信智联信息科技有限公司 一种面向智慧办公系统的文档脱敏存储方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2742115B2 (ja) * 1989-12-01 1998-04-22 日本電信電話株式会社 類似文書検索装置
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
JP3019286B2 (ja) * 1993-10-21 2000-03-13 シャープ株式会社 文書検索装置
JPH08335222A (ja) * 1995-06-08 1996-12-17 Fuji Electric Co Ltd 類似文章及び文書検索機能付コンピュータ装置
JP3006526B2 (ja) * 1997-01-10 2000-02-07 日本電気株式会社 類似文書検索方法および類似文書検索装置
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20000056245A (ko) * 1999-02-18 2000-09-15 윤종용 예제기반 기계번역에서 분별성이 반영된 유사도를 이용한 번역예문 선정방법
JP2000331027A (ja) * 1999-05-21 2000-11-30 Toshiba Corp 類似文書検索装置と類似文書検索方法
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP3690216B2 (ja) * 1999-11-26 2005-08-31 日本電気株式会社 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体

Also Published As

Publication number Publication date
KR20030039576A (ko) 2003-05-22
KR100685023B1 (ko) 2007-02-20
JP2003281186A (ja) 2003-10-03

Similar Documents

Publication Publication Date Title
JP3735335B2 (ja) 類似性判断のための例題ベース検索方法及び検索システム
US8983963B2 (en) Techniques for comparing and clustering documents
CN107315738B (zh) 一种文本信息的创新度评估方法
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
JPH10207911A (ja) 文書検索装置
JPH09153066A (ja) 文書検索装置
CN105302793A (zh) 一种利用计算机自动评价科技文献新颖性的方法
US8498983B1 (en) Assisting search with semantic context and automated search options
US8812504B2 (en) Keyword presentation apparatus and method
CN114138979B (zh) 基于词拓展无监督文本分类的文物安全知识图谱创建方法
JP2005501321A (ja) ドキュメントを自動的にインデックスする方法
CN115422948B (zh) 一种基于语义分析的事件层次网络识别系统及方法
Venkatesh Legal documents clustering and summarization using hierarchical latent Dirichlet allocation
Kim et al. Automatic annotation of bibliographical references in digital humanities books, articles and blogs
JPWO2016067396A1 (ja) 文の並び替え方法および計算機
CN109933787A (zh) 文本关键信息的提取方法、装置及介质
JP5988235B1 (ja) 特許文献の検索方法
CN111898371A (zh) 设计理性知识的本体构建方法、装置及计算机存储介质
CN109213830B (zh) 专业性技术文档的文档检索系统
JP4525433B2 (ja) 文書集約装置及びプログラム
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
Saeed et al. An Intelligent Approach for Semantic Plagiarism Detection in Scientific Papers
Madamidola et al. Metadata Extraction from References of Different Styles

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051021

R150 Certificate of patent or registration of utility model

Ref document number: 3735335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091028

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091028

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101028

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101028

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121028

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121028

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131028

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees