JP7251625B2 - Method and system for searching and displaying relevant documents - Google Patents
Method and system for searching and displaying relevant documents Download PDFInfo
- Publication number
- JP7251625B2 JP7251625B2 JP2021528777A JP2021528777A JP7251625B2 JP 7251625 B2 JP7251625 B2 JP 7251625B2 JP 2021528777 A JP2021528777 A JP 2021528777A JP 2021528777 A JP2021528777 A JP 2021528777A JP 7251625 B2 JP7251625 B2 JP 7251625B2
- Authority
- JP
- Japan
- Prior art keywords
- search query
- vector representation
- search
- unit
- linguistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Description
本発明は、関連文書を検索して表示する方法およびシステムに関する。 The present invention relates to methods and systems for retrieving and displaying relevant documents.
従来、検索クエリに関連する文書(関連文書)を検索して表示する方法が知られている。たとえば、特開2018-10482号公報(特許文献1)には、検索クエリと、検索クエリに概念的に適合する検索対象文書である正解文書の集合との組の集合(正解情報)を用いて、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索する文書概念検索方法が開示されている。当該文書概念検索方法によれば、正解情報を用いることにより検索精度を向上させることができる。 Conventionally, a method of searching for and displaying documents related to a search query (related documents) is known. For example, in Japanese Patent Application Laid-Open No. 2018-10482 (Patent Document 1), a set of pairs (correct information) of a search query and a set of correct documents that are search target documents conceptually matching the search query are used. , a document concept search method for searching for documents to be searched that conceptually match a search query entered by a user. According to the document concept retrieval method, retrieval accuracy can be improved by using the correct information.
人工知能分野の自然言語処理では機械学習を応用して、単語の意味をベクトル表現(分散表現)に変換する技術が用いられている。具体的には、或る単語の意味は当該単語の周囲に出現する単語の分布から決定されるという分布仮説に基づいて、大量の文章情報をニューラルネットワークで学習し、各単語の意味を表すベクトル空間を生成する。 Natural language processing in the field of artificial intelligence applies machine learning to convert the meaning of words into vector representations (distributed representations). Specifically, based on the distribution hypothesis that the meaning of a word is determined from the distribution of words that appear around that word, a neural network learns a large amount of sentence information and generates a vector representing the meaning of each word. Generate space.
互いに類似する意味を有する2つの言語単位のベクトル間距離は、相対的に短くなる。ベクトル表現に基づく文書検索方法によると、検索クエリに近い意味を有する言語単位をより多く含む文書が上位に順位付けされる。そのため、当該文書検索方法によると、検索クエリと一致する文字列が全く含まない文書であっても検索結果の上位に順位付けされる場合があり得る。そのような場合、当該文書が検索された根拠をユーザが理解することができない可能性がある。 The vector-to-vector distance between two linguistic units that have similar meanings to each other is relatively short. According to the document retrieval method based on vector representation, documents containing more linguistic units having meanings close to the retrieval query are ranked higher. Therefore, according to the document retrieval method, even documents that do not contain any character strings that match the retrieval query may be ranked high in the retrieval results. In such cases, the user may not be able to understand why the document was retrieved.
特許文献1に開示されている文書概念検索方法においては、検索クエリ概念ベクトルと検索対象文書の概念ベクトルとの類似度を降順にランキングした検索対象文書を検索結果として表示する。しかし、検索結果の根拠をユーザに示すことについて考慮されていない。
In the document concept search method disclosed in
本発明は、このような課題を解決するためになされたものであって、その目的は、複数の文書が格納されたデータベースから検索クエリに関連する少なくとも1つの関連文書を検索して表示する方法において、検索結果の根拠をユーザに示すことである。 SUMMARY OF THE INVENTION The present invention has been made to solve such problems, and an object thereof is a method of retrieving and displaying at least one related document related to a search query from a database in which a plurality of documents are stored. , to show the user the basis of the search results.
本発明の第1の態様に係る関連文書を検索して表示する方法は、複数の文書を含むデータベースから検索クエリに関連する少なくとも1つの関連文書を検索して表示する。当該方法は、検索工程と、表示工程とを含む。検索工程は、任意の言語単位をベクトル表現に変換するベクトル空間を用いて複数の文書の各々についてのベクトル表現と検索クエリのベクトル表現との距離を算出し、距離に応じて少なくとも1つの関連文書を検索する。表示工程は、少なくとも1つの関連文書の各々を表示する。表示工程は、当該関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現との関連性の大きさに応じた表示態様で、当該言語単位を表示する工程を含む。 A method for retrieving and displaying related documents according to a first aspect of the present invention retrieves and displays at least one related document related to a search query from a database containing a plurality of documents. The method includes a searching step and a displaying step. The retrieving step calculates a distance between the vector representation of each of the plurality of documents and the vector representation of the search query using a vector space that converts any linguistic unit into a vector representation, and retrieves at least one related document according to the distance. Search for The displaying step displays each of the at least one related document. The displaying step includes displaying the linguistic units in a display mode according to the degree of relevance between the vector representation of each of the linguistic units included in the related document and the vector representation of the search query.
本発明の第2の態様に係る関連文書を検索して表示するシステムは、複数の文書から検索クエリに関連する少なくとも1つの関連文書を検索して表示する。当該システムは、データベースと、検索処理部とを備える。データベースには、複数の文書が格納されている。検索処理部は、任意の言語単位をベクトル表現に変換するベクトル空間を用いて複数の文書の各々についてのベクトル表現と検索クエリのベクトル表現との距離を算出し、距離に応じて少なくとも1つの関連文書を検索する。検索処理部は、少なくとも1つの関連文書の各々を表示する。検索処理部は、当該関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現との関連性の大きさに応じた表示態様で、当該言語単位を表示する。 A system for retrieving and displaying related documents according to a second aspect of the present invention retrieves and displays at least one related document related to a search query from a plurality of documents. The system includes a database and a search processor. A plurality of documents are stored in the database. The search processing unit calculates the distance between the vector representation of each of the plurality of documents and the vector representation of the search query using a vector space that converts any linguistic unit into a vector representation, and determines at least one relation according to the distance. Search for documents. A search processor displays each of the at least one related document. The search processing unit displays the linguistic units in a display manner according to the degree of relevance between the vector representation of each of the linguistic units included in the related document and the vector representation of the search query.
本発明に係る関連文書を検索して表示する方法およびシステムによれば、関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現とに基づく当該言語単位と検索クエリとの関連性の大きさに応じた表示態様で、当該言語単位を表示することにより、検索結果の根拠をユーザに示すことができる。 According to the method and system for retrieving and displaying related documents according to the present invention, each of the plurality of linguistic units included in the related document and the vector representation of the search query are used to determine the relationship between the linguistic unit and the search query. By displaying the linguistic unit in a display mode according to the degree of relevance, it is possible to show the user the basis of the search result.
以下に、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下では図中の同一または相当部分には同一符号を付してその説明は原則的に繰返さない。 BEST MODE FOR CARRYING OUT THE INVENTION Below, embodiments of the present invention will be described in detail with reference to the drawings. In the following description, the same reference numerals are assigned to the same or corresponding parts in the drawings, and the description thereof will not be repeated in principle.
図1は、実施の形態に係る関連文書を検索して表示するシステムの一例である分析事例検索システム100の外観図である。図1に示されるように、分析事例検索システム100は、計算機10と、ディスプレイ60と、キーボードKB1と、マウスMS1とを備える。ディスプレイ60と、キーボードKB1と、マウスMS1とは、計算機10に接続されている。
FIG. 1 is an external view of an analysis
ディスプレイ60には、検索ウィンドウWn1およびカーソルCrが表示されている。ユーザは、マウスMS1を操作することによりカーソルを操作する。ユーザは、キーボードKB1を操作することにより検索クエリを検索ウィンドウWn1に入力する。図1には、臭素酸の分析に適した分析装置、分析方法、および分析条件等が記載された文書を検索するため、検索クエリとして「臭素酸」という文字列をユーザが検索ウィンドウWn1に入力した場合が示されている。
The
(分析事例検索システム100の構成)
図2は、図1の分析事例検索システム100の構成を示す機能ブロック図である。図2に示されるように、分析事例検索システム100は、学習処理部20と、検索処理部40とを備える。(Configuration of Analysis Case Search System 100)
FIG. 2 is a functional block diagram showing the configuration of the analysis
分析事例検索システム100は、ユーザが入力した検索クエリに基づいて、データベース30に含まれる複数の文書を検索し、検索クエリに関連する関連文書を検索する。データベース30には、分析事例の分野の文書データが含まれている。分析事例の分野の文書データには、たとえば、分析レポート、分析関連論文、および分析関連特許文献が含まれる。分析レポートは、たとえば図3に示されるような化合物分析に関する文書であり、分析対象の化合物の分析方法に関する情報、分析装置に関する情報、および分析条件に関する情報等を含む。
The analysis
(学習処理部20の構成)
再び図2を参照して、学習処理部20は、形態素解析部21、ベクトル生成部23、関連度学習部25、コーパス27、およびデータベース30を含む。コーパス27は、自然言語処理を用いる機械学習のために、分析事例の分野に関する大量の文書データが体系化されて蓄積された言語資料である。(Configuration of learning processing unit 20)
Referring again to FIG. 2 ,
形態素解析部21は、コーパス27に蓄積されているすべての文書データを、意味を有する最小の言語単位(形態素あるいは単語)に形態素解析によって分割することによって細分化する。
The
ベクトル生成部23は、形態素解析部21による形態素解析の結果に対する機械学習によって、単語をベクトル表現に変換するベクトル空間を生成する。当該ベクトル空間は、ニューラルネットワークによって形成されるモデルに対する機械学習の過程で生成される。当該モデルとしては、たとえば、周辺の単語(コンテキスト)から中央の単語(ターゲット)を推論するCBOW(Continuous Bag-of-Words)モデル、あるいは中央の単語から周辺の単語を推論するskip-gramモデルを挙げることができる。
The
ベクトル生成部23は、単語の意味表現である単語ベクトルを生成する。ベクトル生成部23は、文章の特徴を表す文章ベクトル、および文書の特徴を表す文書ベクトルを文書中に含まれている単語の特徴量の総和等から生成する。なお、文書データの細分化は、任意の言語単位で行われてもよい。任意の言語単位の種類としては、文字、形態素、単語、文章、あるいは段落を挙げることができる。文章とは意味のある文の最小単位であり、文書は複数の文章で構成される。日本語の文章は句点で区切られ、英語等の言語で作成された文章はピリオド(終止符)で区切られる。上記の形態素解析によって文書を句点、あるいはピリオドごとに文に分割して、当該形態素解析の結果に対する上記の機械学習をもとに文章ベクトルを生成する。文書を段落ごとに分割して、段落単位に文章ベクトルを生成してもよい。
The
ベクトル生成部23で生成された単語ベクトル、文章ベクトル、および文書ベクトルは、関連度学習部25に送信される。関連度学習部25は、単語ベクトル学習部25a、単語-文章間学習部25b、および単語-文書間学習部25cを含む。
The word vectors, sentence vectors, and document vectors generated by the
単語ベクトル学習部25aは、単語のベクトル空間におけるベクトル同士の距離が単語間の意味的な類似度を表すことから、ベクトル空間における単語間の意味的な関連度、および単語間のベクトル距離を計算する。同様に単語-文章間学習部25bは、ベクトル空間における単語と文章間の関連度、およびベクトル距離を計算し、単語-文書間学習部25cは、ベクトル空間における単語と文書間の関連度、およびベクトル距離を計算する。なお、2つのベクトル表現の間の距離としては、たとえば、コサイン距離(コサイン類似度)を挙げることができる。2つのベクトル表現の間のコサイン距離が小さいほど、2つのベクトルによってそれぞれ表現される2つの言語単位の意味は近い。
Since the distance between vectors in the vector space of words represents the semantic similarity between words, the word
単語ベクトル学習部25a、単語-文章間学習部25b、および単語-文書間学習部25cでの計算結果は、単語、文章、および文書各々を座標軸とする多次元ベクトル空間を有するデータベース30に、学習データとともに、単語ベクトル、単語-文章ベクトル、および単語-文書ベクトルとして格納される。
Calculation results in the word
なお、コーパス27において、たとえば分析事例のような特定分野を中心としたデータを蓄積することで、その分野により合致したベクトル表現が得られる。その結果、特定分野の文章等の検索精度を向上させることができる。また、コーパス27は、社内報告書、技報、アプリケーションニュース等を格納した内部コーパスと、ウィキペディア(登録商標)等のウェブ上で外部に公開されているデータ等を集めた外部コーパスとから構成されてもよい。外部コーパスはベクトル表現の学習の向上を図るものであるため、外部コーパスを検索対象から除外することにより、検索速度の低下を防止することができる。
By accumulating data centered on a specific field, such as analysis cases, in the
図4は、図2の学習処理部20によって行われる学習処理の流れを説明するためのフローチャートである。以下ではステップを単にSと記載する。図4に示されるように、形態素解析部21は、S11において、コーパス27に格納されている文書データ(学習データ)を既存の辞書を使用した形態素解析により複数の単語に分割する。
FIG. 4 is a flowchart for explaining the flow of learning processing performed by the
ベクトル生成部23は、S11に続くS13において、S11における形態素解析の結果をもとに、単語の意味表現である単語ベクトルを機械学習によって生成するともに、文章の特徴を表す文章ベクトル、および文書の特徴ベクトルである文書ベクトルを文書中に含まれている単語の特徴量の総和等から生成する。
In S13 following S11, the
単語-文章間学習部25bは、S13に続くS15において、ベクトル空間における単語と文章との間の関連度、およびベクトル距離を計算する。単語-文書間学習部25cは、S15に続くS17において、ベクトル空間における単語と文書間の関連度、およびベクトル距離を計算する。
In S15 following S13, the word-
関連度学習部25は、S17に続くS19において、学習データとして使用したコーパス27の文書データとともに、S13,S15,S17での計算結果を、単語ベクトル、単語-文章ベクトル、および単語-文書ベクトルとしてデータベース30に格納する。
In S19 following S17, the
(検索処理部40の構成)
再び図2を参照して、検索処理部40は、入力部1、解析部11、特徴抽出部13、検索部15、表示制御部17、および出力部5を含む。検索処理部40において、入力部1にはユーザによって検索クエリが入力される。検索クエリは、たとえば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名を含む。入力部1は、キーボードKB1、およびマウスMS1を含む。出力部5は、ディスプレイ60を含む。(Configuration of search processing unit 40)
Referring to FIG. 2 again,
解析部11は、入力部1に入力された検索クエリに対して、予め定義された検索辞書をもとに形態素解析を行って、検索クエリを単語に分割する。特徴抽出部13は、学習処理部20によって生成されたベクトル空間を用いて、検索クエリのベクトル表現を算出する。
The
検索部15は、特徴抽出部13から取得した検索クエリのベクトル表現を用いて、データベース30から検索クエリに関連する関連文書を検索する。検索部15は、データベース30から検索クエリのベクトル表現との距離が閾値よりも小さい関連文書を検索する。検索部15は、検索クエリのベクトル表現と、検索された複数の関連文書の各々についてのベクトル表現との距離が短いほど当該関連文書を上位に順位付けた検索結果を表示制御部17に出力する。表示制御部17は、検索部15による順位付けの順に関連文書が表示されるように出力部5を制御する。出力部5は、表示制御部17による制御結果に応じた情報をディスプレイ60に表示する。
The
図5は、図2の検索処理部40によって行われる検索処理の流れを説明するためのフローチャートである。図5に示されるように、入力部1は、S21において、ユーザによって入力されたより検索クエリを受け付ける。解析部11は、S21に続くS23において、検索クエリに対して形態素解析を行って、検索クエリを最小単位の形態素(単語)に分割する。特徴抽出部13は、S23に続くS25において、検索クエリの形態素解析の結果および学習処理部によって生成されたベクトル空間を用いて、検索クエリのベクトル表現を算出する。
FIG. 5 is a flowchart for explaining the flow of search processing performed by the
検索部15は、S25に続くS27において、コーパス27に対する学習によってベクトル化された学習データ等が蓄積されたデータベース30から、検索クエリと関連がある関連文書を検索する。S27においては、検索結果として、検索クエリに関連のある、あるいは関連性の高い文書が検索される。検索クエリに関連の高い文書とは、あらかじめ単語と文書間の関連を計算して得た、ベクトル空間における単語と文書間の関連度が高く、ベクトル距離が短い文書である。検索部15は、検索された複数の関連文書をベクトル距離が小さい順に順位付けする。
In S27 following S25, the
表示制御部17は、S27に続くS29において、検索された複数の関連文書を検索部15の順位付けに基づいて出力部5に表示する。ユーザは、検索された少なくとも1つの関連文書の各々と検索クエリとの関連性の順位に従って閲覧する関連文書を決定することができる。
In S29 following S27, the
図6は、図2の表示制御部17によってディスプレイ60に表示される検索結果ウィンドウWn2の一例を示す図である。図6に示されるように、検索結果ウィンドウWn2には、関連文書D1~D4が順位1~4とともに順番にそれぞれ表示されている。関連文書D1~D4の各々にはハイパーリンクが設定されている。図6において、データベース30から検索された複数の関連文書のうち、「臭素酸」という検索クエリに最も関連のある関連文書はD1である。
FIG. 6 is a diagram showing an example of a search result window Wn2 displayed on the
再び図5も参照して、図6においてユーザがカーソルCrを操作して関連文書D1のハイパーリンクを選択した場合、表示制御部17は、S29に続くS31において、選択されたハイパーリンクに対応する関連文書の内容を表示する。図7は、図6の関連文書D1が選択された場合に検索結果ウィンドウWn2に表示される関連文書D1の内容を示す図である。 Again referring to FIG. 5, when the user operates the cursor Cr to select the hyperlink of the related document D1 in FIG. View the content of related documents. FIG. 7 shows the contents of the related document D1 displayed in the search result window Wn2 when the related document D1 of FIG. 6 is selected.
図7に示されるように、表示制御部17は、検索クエリのベクトル表現と、関連文書D1に含まれる複数の単語の各々について、当該単語のベクトル表現と検索クエリのベクトル表現との距離に応じて、検索結果ウィンドウWn2における当該単語の周辺領域の色を変更することにより、当該単語をハイライトする。関連文書D1に含まれる単語のベクトル表現と検索クエリのベクトル表現との距離は、距離Ds3より大きい範囲R1、距離Ds2(<Ds3)より大きく距離Ds3以下の範囲R2、距離Ds1(<Ds2)より大きく距離Ds2以下の範囲R3、距離Ds1以下の範囲R4の4段階に分けられている。カラーマップCM1において、範囲R1~R4にそれぞれ互いに異なる色CL1~CL4が割り当てられている。なお、各単語と検索クエリとの関連性は、カラーマップCM1において連続的な色変化(グラデーション)として表示されてもよい。
As shown in FIG. 7, the
色CL2でハイライトされた単語WD5と検索クエリとの関連性は、色CL1でハイライトされた単語(不図示)と検索クエリとの関連性よりも大きい。色CL3でハイライトされた単語WD2,WD4,WD7と検索クエリとの関連性は、単語WD5と検索クエリとの関連性よりも大きい。色CL4でハイライトされた単語WD1,WD3,WD6,WD8と検索クエリとの関連性は、単語WD2,WD4,WD7と検索クエリとの関連性よりも大きい。 The relevance between the word WD5 highlighted with the color CL2 and the search query is greater than the relevance between the word (not shown) highlighted with the color CL1 and the search query. The relevance of words WD2, WD4, and WD7 highlighted with color CL3 to the search query is greater than the relevance of word WD5 to the search query. The relevance of words WD1, WD3, WD6, WD8 highlighted with color CL4 to the search query is greater than the relevance of words WD2, WD4, WD7 to the search query.
再び図5も参照して、表示制御部17は、S31に続くS33において、検索結果ウィンドウにおいてハイライトされている言語単位に対して選択操作(たとえばマウス操作によるダブルクリック)がされたか否かを判定する。ハイライトされている言語単位に対して選択操作がされた場合(S33においてYES)、表示制御部17は、選択された言語単位をS35において検索クエリに設定して、処理をS23に戻す。たとえば、図7の単語WD2の周辺領域にカーソルCrが重なっている状態において、ユーザがマウスMS1をダブルクリックした場合、単語WD2が検索クエリに設定されて、図5のS23からの検索処理が開始される。ユーザは今回の検索クエリとの関連性に着目して、新たな検索クエリを決定することができる。
Again referring to FIG. 5, in S33 subsequent to S31, the
ハイライトされている言語単位に対する選択操作がされていない場合(S33においてNO)、表示制御部17は、S37において検索結果ウィンドウの閉止操作がされたか否かを判定する。検索結果ウィンドウの閉止操作(たとえば図7のボタンBn3の押下)がされていない場合(S37においてNO)、表示制御部17は、処理をS33に戻す。検索結果ウィンドウの閉止操作がされた場合(S37においてYES)、表示制御部17は、処理を終了する。
If the highlighted linguistic unit has not been selected (NO in S33), the
図7に示される検索結果ウィンドウWn2において、ユーザは、関連文書D1に含まれる複数の単語の各々について、検索クエリとの関連性をハイライト色の違いとして確認することができる。関連文書D1に検索クエリと一致する文字列が含まれていない場合でも、ユーザは、関連文書D1が検索された根拠を視覚的に把握することができる。また、複数の単語の各々のベクトル表現と検索クエリのベクトル表現との距離に応じて当該単語のハイライト色を変更することにより、検索された関連文書に含まれる複数の単語の各々と検索クエリとの関連性を、当該単語以外の他の単語に依存しない直接的な関連性としてユーザに示すことができる。 In the search result window Wn2 shown in FIG. 7, the user can confirm the relevance of each of the plurality of words included in the related document D1 to the search query as a difference in highlight color. Even if the related document D1 does not contain a character string that matches the search query, the user can visually grasp the reason why the related document D1 was retrieved. Further, by changing the highlight color of the word according to the distance between the vector representation of each of the multiple words and the vector representation of the search query, each of the multiple words contained in the retrieved related documents and the search query can be shown to the user as a direct relationship that does not depend on other words other than the word.
図7においては、関連文書に含まれる複数の単語の各々について、当該単語と検索クエリとの関連性を、当該単語のベクトル表現と検索クエリのベクトル表現との距離として表現する場合について説明した。当該単語と検索クエリとの関連性は、当該関連文書のベクトル表現と検索クエリのベクトル表現との距離への当該単語の寄与度として表現されてもよい。 In FIG. 7, for each of a plurality of words included in related documents, the case where the relevance between the word and the search query is expressed as the distance between the vector representation of the word and the vector representation of the search query has been described. The relevance between the word and the search query may be expressed as the contribution of the word to the distance between the vector representation of the relevant document and the vector representation of the search query.
データベース30に格納されている文書Wiは、以下の式(1)のように単語wdi,kの集合として表現される。なお、自然数iは、1から自然数D(>1)までのいずれかの自然数である。自然数k,tの各々は、1から自然数N(>1)までのいずれかの自然数である。A document W i stored in the
データベース30に格納されている複数の文書は、以下の式(2)のように文章集合Wとして表現される。
A plurality of documents stored in the
文書Wiと検索クエリQとの距離Dsiは、以下の式(3)のように表現される。The distance Dsi between the document Wi and the search query Q is expressed as in Equation (3) below.
式(3)における関数fは、引数のベクトル表現を返す関数である。関数fとしては、たとえば、Doc2Vec、K-hotベクトル、One-hotベクトルの線形結合、単語の数え上げによるベクトル表現、およびトピックモデルを挙げることができる。 The function f in equation (3) is a function that returns a vector representation of its arguments. Functions f include, for example, Doc2Vec, K-hot vectors, linear combinations of One-hot vectors, vector representations by counting words, and topic models.
式(1)の文書Wiに含まれる単語wdi,tの距離Dsiへの寄与度を求めるために、文書Wiから単語wdi,tを削除した文書Wi,/tを以下の式(4)のように定義する。In order to obtain the degree of contribution of words wd i,t included in document W i in equation (1) to distance Dsi, document W i ,/t obtained by deleting words wd i ,t from document W i is expressed as follows: It is defined as in formula (4).
文書Wi,/tと検索クエリQとの距離Dsi,/tは、以下の式(5)のように表現される。The distance Ds i,/t between the document Wi, /t and the search query Q is expressed as in Equation (5) below.
検索クエリQと文書Wiとの関連性への単語wdi,tの寄与度が大きい程、検索クエリQと文書Wi,/tとの関連性は小さくなる。すなわち、検索クエリQと文書Wiとの関連性への単語wdi,tの寄与度が大きい程、距離Dsi,/tが大きくなる。その結果、距離Dsi,/tと距離Dsiとの差が大きくなる。単語wdi,tの寄与度Cni,nは、以下の式(6)のように表される。The greater the contribution of word wd i,t to the relevance between search query Q and document Wi , the smaller the relevance between search query Q and document Wi,/t . That is, the greater the contribution of the word wd i,t to the relevance between the search query Q and the document Wi , the greater the distance Dsi ,/t . As a result, the difference between the distance Ds i,/t and the distance Ds i increases. The contribution Cn i,n of the word wd i, t is represented by the following equation (6).
図8は、関連文書D1に含まれる単語と検索クエリとの関連性として当該単語の寄与度を用いて、関連文書D1に含まれる複数の単語の各々をハイライトした様子を示す図である。図8の検索結果ウィンドウWn2の内容は、図7の検索結果ウィンドウWn2のカラーマップCM1がカラーマップCM2に置き換えられた内容である。これ以外は同様であるため、説明を繰り返さない。 FIG. 8 is a diagram showing how each of a plurality of words included in the related document D1 is highlighted using the degree of contribution of the word as the relationship between the word included in the related document D1 and the search query. The contents of the search result window Wn2 in FIG. 8 are obtained by replacing the color map CM1 of the search result window Wn2 in FIG. 7 with the color map CM2. Other than this, they are the same, so the description will not be repeated.
図8に示されるように、表示制御部17は、関連文書D1に含まれる複数の単語の各々について、当該単語の寄与度に応じて、検索結果ウィンドウWn2における当該単語の周辺領域の色を変更し、当該単語をハイライトする。関連文書D1に含まれる単語の寄与度は、寄与度Cn1より小さい範囲R11、寄与度Cn1以上であって寄与度Cn2(>Cn1)より小さい範囲R12、寄与度Cn2以上であって寄与度Cn3(>Cn2)より小さい範囲R13、および寄与度Cn3以上の範囲R14の4段階に分けられている。カラーマップCM2において、範囲R11~R14にそれぞれ互いに異なる色CL1~CL4が割り当てられている。なお、単語の寄与度は、カラーマップCM2において連続的な色変化(グラデーション)として表示されてもよい。
As shown in FIG. 8, the
検索された関連文書に含まれる複数の単語の各々の寄与度に応じて当該単語のハイライト色を変更することにより、当該関連文書に含まれる複数の言語単位の各々と検索クエリとの関連性を、当該言語単位以外の他の言語単位と検索クエリとの関連性が反映された総合的な関連性としてユーザに示すことができる。 Relevance between each of the plurality of linguistic units included in the related document and the search query by changing the highlight color of the word according to the degree of contribution of each of the words included in the related document can be presented to the user as a comprehensive relevance that reflects the relevance between other linguistic units and the search query.
図7および図8においては、検索結果ウィンドウにおいてハイライトされる言語単位が単語である場合について説明した。ハイライトされる言語単位は、単語以外であってもよい。言語単位の種類を変化させることにより、複数の観点から関連文書が検索された根拠をユーザに示すことができる。 7 and 8, the case where the linguistic unit highlighted in the search result window is a word has been described. The linguistic units highlighted may be other than words. By changing the type of linguistic unit, it is possible to show the user the grounds on which related documents have been retrieved from a plurality of viewpoints.
図9は、ハイライトされる言語単位が文章である場合の検索結果ウィンドウWn2に表示される関連文書D1の内容を示す図である。図9に示されるカラーマップCM2は、文章の寄与度の分布を示す。 FIG. 9 shows the contents of the related document D1 displayed in the search result window Wn2 when the highlighted linguistic unit is a sentence. The color map CM2 shown in FIG. 9 shows the distribution of the degree of contribution of sentences.
図9に示されるように、色CL2でハイライトされた文章ST4と検索クエリとの関連性は、色CL1でハイライトされた文章(不図示)と検索クエリとの関連性よりも大きい。色CL3でハイライトされた文章ST3,ST6と検索クエリとの関連性は、文章ST4と検索クエリとの関連性よりも大きい。色CL4でハイライトされた文章ST1,ST2,ST5,ST7と検索クエリとの関連性は、文章ST3,ST6と検索クエリとの関連性よりも大きい。 As shown in FIG. 9, the relevance between the sentence ST4 highlighted with the color CL2 and the search query is greater than the relevance between the sentence (not shown) highlighted with the color CL1 and the search query. The relevance between the sentences ST3 and ST6 highlighted with the color CL3 and the search query is greater than the relevance between the sentence ST4 and the search query. The relevance between the sentences ST1, ST2, ST5 and ST7 highlighted with the color CL4 and the search query is greater than the relevance between the sentences ST3 and ST6 and the search query.
図10は、ハイライトされる言語単位が段落である場合の検索結果ウィンドウWn2に表示される関連文書D1の内容を示す図である。図10に示されるカラーマップCM2は、段落の寄与度の分布を示す。 FIG. 10 shows the contents of the related document D1 displayed in the search result window Wn2 when the highlighted linguistic unit is a paragraph. The color map CM2 shown in FIG. 10 indicates the distribution of paragraph contributions.
図10に示されるように、色CL2でハイライトされた段落PR3と検索クエリとの関連性は、色CL1でハイライトされた段落(不図示)と検索クエリとの関連性よりも大きい。色CL3でハイライトされた段落PR1と検索クエリとの関連性は、段落PR3と検索クエリとの関連性よりも大きい。色CL4でハイライトされた段落PR2と検索クエリとの関連性は、段落PR1と検索クエリとの関連性よりも大きい。 As shown in FIG. 10, the relevance between the paragraph PR3 highlighted with the color CL2 and the search query is greater than the relevance between the paragraph (not shown) highlighted with the color CL1 and the search query. The relevance of paragraph PR1 highlighted with color CL3 to the search query is greater than the relevance of paragraph PR3 to the search query. The relevance between paragraph PR2 highlighted with color CL4 and the search query is greater than the relevance between paragraph PR1 and the search query.
なお、検索結果ウィンドウWn2においてハイライトされる言語単位は1種類である必要はなく、文字、形態素、単語、文章、段落、およびこれらの任意の組み合わせからなる群から選択されてもよい。たとえば、文字および形態素がハイライトされる言語単位とされてもよいし、単語、文章、および段落がハイライトされる言語単位とされてもよい。 Note that the linguistic unit highlighted in the search result window Wn2 does not have to be of one type, and may be selected from the group consisting of characters, morphemes, words, sentences, paragraphs, and any combination thereof. For example, letters and morphemes may be the linguistic units highlighted, or words, sentences, and paragraphs may be the linguistic units highlighted.
図11は、実施の形態に係る関連文書を検索して表示するシステムの一例である分析事例検索システム100Aがネットワーク70を介して複数のクライアント端末80a~80nに接続された場合の、分析事例検索システム100Aの構成を示す機能ブロック図である。図11に示されるように、分析事例検索システム100Aは、たとえばインターネット環境において、ユーザ等からの要求に応じて分析事例の検索を可能にし、検索結果をユーザ等に提供する。
FIG. 11 shows an analysis case search when an analysis
分析事例検索システム100Aと、複数のクライアント端末80a~80nとが、インターネット等の情報通信用のネットワーク70を介して通信可能に接続されている。分析事例検索システム100Aおよび複数のクライアント端末80a~80nは、クライアントサーバシステム1000を構成する。分析事例検索システム100A内の通信部61は、ネットワーク70とのインターフェイスである。制御部65は、CPU(Central Processing Unit)を含み、学習処理部20および検索処理部40を含む分析事例検索システム100Aの全体の制御を司る。
An analysis
メモリ67には、上述した学習処理部20における学習処理プログラム、および検索処理部40による検索処理プログラム等が格納されている。制御部65は、メモリ67からこれらのプログラムを読み出して、図4および図5に示される所定の処理等を実行する。なお、分析事例検索システム100Aを、ネットワーク70に接続されたサーバ装置と位置づけることもできる。すなわち、分析事例検索システム100Aにおいては、検索処理部40による表示処理(表示工程)がサーバサイドにおいて行われる。既存のクライアント端末をサーバ装置に接続することにより、当該クライアント端末を介して関連文書が検索された根拠をユーザに示すことができる。
The
検索処理部40による表示処理は、複数のクライアント端末80a~80n(クライアントサイド)において行われてもよい。クライアント端末を既存のサーバ装置に接続することにより、当該クライアント端末を介して関連文書が検索された根拠をユーザに示すことができる。
The display processing by the
以上、実施の形態に係る関連文書を検索して表示する方法およびシステムによれば、検索結果の根拠をユーザに示すことができる。 As described above, according to the method and system for searching and displaying related documents according to the embodiment, it is possible to show the user the basis of the search result.
[態様]
上述した複数の例示的な実施の形態は、以下の態様の具体例であることが当業者により理解される。[Aspect]
It will be appreciated by those skilled in the art that the multiple exemplary embodiments described above are specific examples of the following aspects.
(第1項)一態様に係る関連文書を検索して表示する方法は、複数の文書を含むデータベースから検索クエリに関連する少なくとも1つの関連文書を検索して表示する。当該方法は、検索工程と、表示工程とを含む。検索工程は、任意の言語単位をベクトル表現に変換するベクトル空間を用いて複数の文書の各々についてのベクトル表現と検索クエリのベクトル表現との距離を算出し、距離に応じて少なくとも1つの関連文書を検索する。表示工程は、少なくとも1つの関連文書の各々を表示する。表示工程は、当該関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現とに基づく当該言語単位と検索クエリとの関連性の大きさに応じた表示態様で、当該言語単位を表示する工程を含む。 (Section 1) A method for retrieving and displaying related documents according to one aspect retrieves and displays at least one related document related to a search query from a database including a plurality of documents. The method includes a searching step and a displaying step. The retrieving step calculates a distance between the vector representation of each of the plurality of documents and the vector representation of the search query using a vector space that converts any linguistic unit into a vector representation, and retrieves at least one related document according to the distance. Search for The displaying step displays each of the at least one related document. In the display step, the language is displayed in a display mode according to the degree of relevance between the language unit and the search query based on the vector expression of each of the plurality of language units included in the related document and the vector expression of the search query. Including the step of displaying units.
第1項に記載の方法によれば、当該関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現とに基づく当該言語単位と検索クエリとの関連性の大きさに応じた表示態様で、当該言語単位を表示することにより、検索結果の根拠をユーザに示すことができる。
According to the method described in
(第2項)第1項に記載の方法において、当該言語単位の表示態様は、当該言語単位の周辺領域の色を含む。
(Section 2) In the method described in
第2項に記載の方法によれば、検索された関連文書に含まれる複数の言語単位の各々と検索クエリとの関連性が、当該言語単位の周辺領域の色の違いとして視覚的に把握することができる。
According to the method described in
(第3項)第1項または第2項に記載の方法において、当該言語単位と検索クエリとの関連性の大きさは、複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現との距離である。
(Section 3) In the method described in
第3項に記載の方法によれば、検索された関連文書に含まれる複数の言語単位の各々と検索クエリとの関連性を、当該言語単位以外の他の言語単位に依存しない直接的な関連性としてユーザに示すことができる。
According to the method described in
(第4項)第1項または第2項に記載の方法において、当該言語単位と検索クエリとの関連性の大きさは、複数の言語単位の各々の寄与度である。寄与度は、少なくとも1つの関連文書の各々から当該言語単位を除いたベクトル表現と検索クエリのベクトル表現との距離から、当該関連文書のベクトル表現と検索クエリのベクトル表現との距離を減算した値である。
(Item 4) In the method described in
第4項に記載の方法によれば、検索された関連文書に含まれる複数の言語単位の各々と検索クエリとの関連性を、当該言語単位以外の他の言語単位と検索クエリとの関連性が反映された総合的な関連性としてユーザに示すことができる。
According to the method described in
(第5項)第1項に記載の方法において、検索工程は、検索クエリのベクトル表現と少なくとも1つの関連文書の各々についてのベクトル表現との距離が短いほど、当該文書を上位に順位付ける工程を含む。表示工程は、検索工程による順位付けに従って少なくとも1つの関連文書を表示する工程を含む。
(Section 5) In the method according to
第5項に記載の方法によれば、ユーザは、検索された少なくとも1つの関連文書の各々と検索クエリとの関連性の順位に従って、閲覧する関連文書を決定することができる。
According to the method of
(第6項)第1項に記載の方法において、複数の言語単位の種類は、文字、形態素、単語、文章、段落、およびこれらの任意の組み合わせからなる群から選択される。
(Item 6) In the method of
第6項に記載の方法によれば、複数の言語単位の種類を変化させることにより、複数の観点から関連文書が検索された根拠をユーザに示すことができる。
According to the method described in
(第7項)第1項に記載の方法は、クライアントサーバシステムにおいて行われる。表示工程は、サーバサイドにおいて行われる。
(Section 7) The method described in
第7項に記載の方法によれば、既存のクライアント端末をサーバ装置に接続することにより、当該クライアント端末を介して関連文書が検索された根拠をユーザに示すことができる。
According to the method described in
(第8項)第1項に記載の方法は、クライアントサーバシステムにおいて行われる。表示工程は、クライアントサイドにおいて行われる。
(Section 8) The method described in
第8項に記載の方法によれば、クライアント端末を既存のサーバ装置に接続することにより、当該クライアント端末を介して関連文書が検索された根拠をユーザに示すことができる。 According to the method described in Item 8, by connecting the client terminal to the existing server device, it is possible to show the user the reason why the related document was retrieved via the client terminal.
(第9項)第1項に記載の方法において、検索工程は、表示されている複数の言語単位に含まれる或る言語単位がユーザによって選択された場合、当該言語単位を検索クエリとして少なくとも1つの関連文書を検索する工程を含む。
(Item 9) In the method according to
第9項に記載の方法によれば、ユーザは今回の検索クエリとの関連性に着目して、新たな検索クエリを決定することができる。 According to the method described in item 9, the user can determine a new search query by focusing on the relevance to the current search query.
(第10項)第1項に記載の方法において、ベクトル空間は、データベースを含むコーパスに対して自然言語処理を行う機械学習によって生成される。
(Item 10) In the method described in
第10項に記載の方法によれば、コーパスを用いたモデルに対する機械学習の過程で、コーパスの特徴が高精度に反映されたベクトル空間を生成することができる。
According to the method described in
(第11項)第11項に記載の関連文書を検索して表示するシステムは、複数の文書から検索クエリに関連する少なくとも1つの関連文書を検索して表示する。当該システムは、データベースと、検索処理部とを含む。データベースは、複数の文書を含む。検索処理部は、任意の言語単位をベクトル表現に変換するベクトル空間を用いて複数の文書の各々についてのベクトル表現と検索クエリのベクトル表現との距離を算出し、距離に応じて少なくとも1つの関連文書を検索する。検索処理部は、少なくとも1つの関連文書の各々を表示する。検索処理部は、当該関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現とに基づく当該言語単位と検索クエリとの関連性の大きさに応じた表示態様で、当該言語単位を表示する。
(Item 11) The system for retrieving and displaying related documents according to
第11項に記載のシステムによれば、関連文書に含まれる複数の言語単位の各々のベクトル表現と検索クエリのベクトル表現とに基づく当該言語単位と検索クエリとの関連性の大きさに応じた表示態様で、当該言語単位を表示することにより、検索結果の根拠をユーザに示すことができる。
According to the system of
なお、上述した実施の形態および変更例について、明細書内で言及されていない組み合わせを含めて、不都合または矛盾が生じない範囲内で、実施の形態で説明された構成を適宜組み合わせることは出願当初から予定されている。 It should be noted that, regarding the above-described embodiments and modifications, it is possible to appropriately combine the configurations described in the embodiments within a range that does not cause any inconvenience or contradiction, including combinations not mentioned in the specification at the time of filing. is scheduled from
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be considered that the embodiments disclosed this time are illustrative in all respects and not restrictive. The scope of the present invention is indicated by the scope of the claims rather than the above description, and is intended to include all changes within the scope and meaning equivalent to the scope of the claims.
1 入力部、5 出力部、10 計算機、11 解析部、13 特徴抽出部、15 検索部、17 表示制御部、20 学習処理部、21 形態素解析部、23 ベクトル生成部、25 関連度学習部、25a 単語ベクトル学習部、25b 単語-文章間学習部、25c 単語-文書間学習部、27 コーパス、30 データベース、40 検索処理部、60 ディスプレイ、61 通信部、65 制御部、67 メモリ、70 ネットワーク、80a~80n クライアント端末、100,100A 分析事例検索システム、1000 クライアントサーバシステム、KB1 キーボード、MS1 マウス。 1 input unit, 5 output unit, 10 calculator, 11 analysis unit, 13 feature extraction unit, 15 search unit, 17 display control unit, 20 learning processing unit, 21 morphological analysis unit, 23 vector generation unit, 25 relevance learning unit, 25a word vector learning unit, 25b word-sentence learning unit, 25c word-sentence learning unit, 27 corpus, 30 database, 40 search processing unit, 60 display, 61 communication unit, 65 control unit, 67 memory, 70 network, 80a-80n client terminal, 100, 100A analysis case search system, 1000 client server system, KB1 keyboard, MS1 mouse.
Claims (10)
任意の言語単位をベクトル表現に変換するベクトル空間を用いて前記複数の文書の各々についてのベクトル表現と前記検索クエリのベクトル表現との距離を算出し、前記距離に応じて前記少なくとも1つの関連文書を検索する検索工程と、
前記少なくとも1つの関連文書の各々を表示する表示工程とを含み、
前記表示工程は、
当該関連文書に含まれる複数の言語単位の各々のベクトル表現と前記検索クエリのベクトル表現とに基づく当該言語単位と
前記検索クエリと
の関連性の大きさに応じた表示態様で、当該言語単位を表示する工程を含み、
前記関連性の大きさは、前記複数の言語単位の各々の寄与度であり、
前記寄与度は、前記少なくとも1つの関連文書の各々から当該言語単位を除いたベクトル表現と前記検索クエリのベクトル表現との距離から、当該関連文書のベクトル表現と前記検索クエリのベクトル表現との距離を減算した値である、方法。 1. A computer-implemented method of retrieving and displaying at least one relevant document associated with a search query from a database containing a plurality of documents, comprising:
calculating a distance between the vector representation of each of the plurality of documents and the vector representation of the search query using a vector space that converts any linguistic unit into a vector representation, and determining the at least one related document according to the distance; a search step of searching for
displaying each of the at least one related document;
The display step includes
The linguistic unit is displayed in a display mode according to the degree of relevance between the linguistic unit and the search query based on the vector representation of each of the multiple linguistic units contained in the related document and the vector representation of the search query. including the step of displaying,
The magnitude of the relevance is the contribution of each of the plurality of linguistic units,
The degree of contribution is calculated from the distance between the vector representation of the search query and the vector representation of each of the at least one related document excluding the linguistic unit, and the distance between the vector representation of the related document and the vector representation of the search query. The method, which is the value after subtracting the
前記表示工程は、前記検索工程による順位付けに従って前記少なくとも1つの関連文書を表示する工程を含む、請求項1に記載の方法。 the searching step includes ranking the related documents higher as the distance between the vector representation of the search query and the vector representation for each of the at least one related documents is shorter;
2. The method of claim 1, wherein the displaying step comprises displaying the at least one related document according to ranking by the searching step.
前記表示工程は、サーバサイドにおいて行われる、請求項1に記載の方法。 The method is performed in a client-server system,
2. The method of claim 1, wherein the displaying step is performed at the server side.
前記表示工程は、クライアントサイドにおいて行われる、請求項1に記載の方法。 The method is performed in a client-server system,
2. The method of claim 1, wherein the displaying step is performed on the client side.
前記複数の文書を含むデータベースと、
任意の言語単位をベクトル表現に変換するベクトル空間を用いて前記複数の文書の各々についてのベクトル表現と前記検索クエリのベクトル表現との距離を算出し、前記距離に応じて前記少なくとも1つの関連文書を検索し、前記少なくとも1つの関連文書の各々を表示する検索処理部とを備え、
前記検索処理部は、
当該関連文書に含まれる複数の言語単位の各々のベクトル表現と前記検索クエリのベクトル表現とに基づく当該言語単位と
前記検索クエリと
の関連性の大きさに応じた表示態様で、当該言語単位を表示し、
前記関連性の大きさは、前記複数の言語単位の各々の寄与度であり、
前記寄与度は、前記少なくとも1つの関連文書の各々から当該言語単位を除いたベクトル表現と前記検索クエリのベクトル表現との距離から、当該関連文書のベクトル表現と前記検索クエリのベクトル表現との距離を減算した値である、システム。 A system for retrieving and displaying at least one related document related to a search query from a plurality of documents, comprising:
a database containing the plurality of documents;
calculating a distance between the vector representation of each of the plurality of documents and the vector representation of the search query using a vector space that converts any linguistic unit into a vector representation, and determining the at least one related document according to the distance; and displaying each of the at least one related document,
The search processing unit is
The linguistic unit is displayed in a display mode according to the degree of relevance between the linguistic unit and the search query based on the vector representation of each of the multiple linguistic units contained in the related document and the vector representation of the search query. display and
The magnitude of the relevance is the contribution of each of the plurality of linguistic units,
The degree of contribution is calculated from the distance between the vector representation of the search query and the vector representation of each of the at least one related document excluding the linguistic unit, and the distance between the vector representation of the related document and the vector representation of the search query. , the system.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/025571 WO2020261479A1 (en) | 2019-06-27 | 2019-06-27 | Method and system for searching for and displaying related document |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020261479A1 JPWO2020261479A1 (en) | 2020-12-30 |
JPWO2020261479A5 JPWO2020261479A5 (en) | 2022-02-03 |
JP7251625B2 true JP7251625B2 (en) | 2023-04-04 |
Family
ID=74060500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021528777A Active JP7251625B2 (en) | 2019-06-27 | 2019-06-27 | Method and system for searching and displaying relevant documents |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7251625B2 (en) |
WO (1) | WO2020261479A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191450B (en) * | 2019-12-27 | 2023-12-01 | 深圳市优必选科技股份有限公司 | Corpus cleaning method, corpus input device and computer readable storage medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222210A (en) | 2001-01-25 | 2002-08-09 | Hitachi Ltd | Document search system, method therefor, and search server |
JP2004334341A (en) | 2003-04-30 | 2004-11-25 | Canon Inc | Document retrieval system, document retrieval method, and recording medium |
JP2005092253A (en) | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | System and method for generating data for machine learning, system and method for generating pair of similar documents and computer program |
JP2014211870A (en) | 2013-04-19 | 2014-11-13 | パロ・アルト・リサーチ・センター・インコーポレーテッドPaloAlto ResearchCenterIncorporated | Visual search construction, document triage, and coverage tracking |
JP2017201478A (en) | 2016-05-06 | 2017-11-09 | 日本電信電話株式会社 | Keyword evaluation device, similarity evaluation device, search device, evaluate method, search method, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145254A (en) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device |
-
2019
- 2019-06-27 JP JP2021528777A patent/JP7251625B2/en active Active
- 2019-06-27 WO PCT/JP2019/025571 patent/WO2020261479A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222210A (en) | 2001-01-25 | 2002-08-09 | Hitachi Ltd | Document search system, method therefor, and search server |
JP2004334341A (en) | 2003-04-30 | 2004-11-25 | Canon Inc | Document retrieval system, document retrieval method, and recording medium |
JP2005092253A (en) | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | System and method for generating data for machine learning, system and method for generating pair of similar documents and computer program |
JP2014211870A (en) | 2013-04-19 | 2014-11-13 | パロ・アルト・リサーチ・センター・インコーポレーテッドPaloAlto ResearchCenterIncorporated | Visual search construction, document triage, and coverage tracking |
JP2017201478A (en) | 2016-05-06 | 2017-11-09 | 日本電信電話株式会社 | Keyword evaluation device, similarity evaluation device, search device, evaluate method, search method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2020261479A1 (en) | 2020-12-30 |
JPWO2020261479A1 (en) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6910037B2 (en) | Method and apparatus for providing search results in response to an information search request | |
TWI557664B (en) | Product information publishing method and device | |
US20100205198A1 (en) | Search query disambiguation | |
US20050027704A1 (en) | Method and system for assessing relevant properties of work contexts for use by information services | |
JP7252914B2 (en) | Method, apparatus, apparatus and medium for providing search suggestions | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
KR101873873B1 (en) | Multimedia content search device through attribute information analysis and Method | |
JP2003114906A (en) | Meta-document managing system equipped with user definition validating personality | |
CN111475729A (en) | Search content recommendation method and device | |
JP5754019B2 (en) | Synonym extraction system, method and program | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
JP7251625B2 (en) | Method and system for searching and displaying relevant documents | |
KR100341396B1 (en) | 3-D clustering representation system and method using hierarchical terms | |
JP2009288870A (en) | Document importance calculation system, and document importance calculation method and program | |
CN117420998A (en) | Client UI interaction component generation method, device, terminal and medium | |
JP7167997B2 (en) | Literature retrieval method and literature retrieval system | |
CN110688559A (en) | Retrieval method and device | |
JP2008077252A (en) | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium | |
JP6106489B2 (en) | Semantic analyzer and program | |
JP7428250B2 (en) | Method, system, and apparatus for evaluating document retrieval performance | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP5368900B2 (en) | Information presenting apparatus, information presenting method, and program | |
CN114117242A (en) | Data query method and device, computer equipment and storage medium | |
JP6181890B2 (en) | Literature analysis apparatus, literature analysis method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230306 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7251625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |