JP2017117109A - Information processing device, information processing system, information retrieval method, and program - Google Patents
Information processing device, information processing system, information retrieval method, and program Download PDFInfo
- Publication number
- JP2017117109A JP2017117109A JP2015250334A JP2015250334A JP2017117109A JP 2017117109 A JP2017117109 A JP 2017117109A JP 2015250334 A JP2015250334 A JP 2015250334A JP 2015250334 A JP2015250334 A JP 2015250334A JP 2017117109 A JP2017117109 A JP 2017117109A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- search
- similar
- word
- appearances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理システム、情報検索方法、及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing system, an information search method, and a program.
従来、電子媒体等に格納された膨大な言語情報、テキスト情報から検索者が要求するものを効率的に検索する技術が要求されている。このような検索を行うため、言語情報、テキスト情報を読み込み、形態素解析等を実施して言語情報、テキスト情報に出現する単語や語句を索引語とする転置索引(転置ファイル)を作成しておき、検索者が入力するキーワードに対して、転置索引を利用して言語情報、テキスト情報を検索する技術が知られている。 2. Description of the Related Art Conventionally, there is a demand for a technique for efficiently retrieving what a searcher requests from a large amount of language information and text information stored in an electronic medium or the like. In order to perform such a search, a transposed index (transposed file) is created by reading linguistic information and text information, performing morphological analysis, etc., and using words and phrases appearing in the linguistic information and text information as index words. A technique for searching language information and text information using a transposed index for a keyword input by a searcher is known.
また、索引付けられた文字列と入力キーワードとの類似度(Nグラムの一致度や、編集距離、その他文字列から抽出される特徴情報)を利用して入力キーワードの類似語を検出し、これらを誤記または表記の揺れとして、入力キーワードとともに検索することで、検索者が入力するキーワード、または格納された言語情報、テキスト情報に誤記または表記の揺れがある場合であっても、検索漏れを防ぐ技術が知られている(例えば、特許文献1参照)。 Further, similar words of the input keyword are detected by using the similarity between the indexed character string and the input keyword (matching degree of N-gram, editing distance, and other feature information extracted from the character string). By searching with the input keyword as typographical error or notation, the keyword entered by the searcher, or the stored language information or text information can be prevented from being missed even if the typographical error or notation is shaken. A technique is known (see, for example, Patent Document 1).
しかし、従来の類似語を検出する技術では、誤記または表記の揺れのみならず、単に綴りが類似している別の意味の文字列も類似語として検出してしまうという問題があった。 However, the conventional technique for detecting similar words has a problem that not only erroneous writing or shaking of notation but also a character string having another meaning that is simply similar in spelling is detected as a similar word.
そこで、キーワードと綴りが類似している別の意味の語句と、キーワードの誤記または表記の揺れの語句とを判別できる技術を提供することを目的とする。 Accordingly, it is an object of the present invention to provide a technique capable of discriminating a word having another meaning similar in spelling with a keyword and a word having a misprinted keyword or a wobbling word.
情報処理装置において、キーワードを取得するキーワード取得部と、前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索する第一の検索部と、前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索する第二の検索部と、を備える。 In the information processing apparatus, a keyword acquisition unit that acquires a keyword, a first search unit that searches for similar words in which the keyword and a character string are similar, from search target data, and the search target data A second search unit for searching for a candidate word that is presumed to be an error in the keyword or a fluctuation of the notation from the similar words based on the number of appearances of the keywords and the number of appearances of the similar words; .
開示の技術によれば、キーワードと綴りが類似している別の意味の語句と、キーワードの誤記または表記の揺れの語句とを判別することが可能となる。 According to the disclosed technology, it is possible to discriminate between another meaning word / phrase similar in spelling to the keyword and a keyword error / notation fluctuation word / phrase.
以下、図面を参照して、本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本実施形態においては、特許文書を検索する情報検索装置を含む情報検索システムを例として説明する。 In the present embodiment, an information search system including an information search device for searching for patent documents will be described as an example.
図1は、本実施の形態に係る情報検索システムの運用形態の例を示す図である。図1に示すように、本実施形態に係る情報検索システムは、情報検索装置1、クライアント装置2及び対象情報DB200を含む。クライアント装置2は、PC(Personal Computer)等の一般的な情報処理装置によって構成される。情報検索装置1は、ネットワークを介してクライアント装置2と接続されており、クライアント装置2からの検索要求を受けて対象情報DB200に格納されている文書情報を検索するサーバとして運用される。
FIG. 1 is a diagram illustrating an example of an operation mode of the information search system according to the present embodiment. As illustrated in FIG. 1, the information search system according to the present embodiment includes an
対象情報DB200は、検索対象の情報として特許文献の情報を記憶している。即ち、本実施形態に係る検索対象情報は、対象情報DB200に格納されている特許文献情報である。尚、図1に示すように、本実施形態においては、対象情報DB200が情報検索装置1とは別に設けられている例を説明するが、対象情報DB200を情報検索装置1内部に構成することも可能である。対象情報DB200は、HDD等の不揮発性記憶媒体によって構成される。
The target information DB 200 stores patent document information as search target information. That is, the search target information according to the present embodiment is patent document information stored in the
次に、本実施形態に係る情報検索装置1のハードウェア構成について説明する。図2は、本実施形態に係る情報検索装置1のハードウェア構成を示すブロック図である。図2に示すように、本実施形態に係る情報検索装置1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を有する。即ち、本実施形態に係る情報検索装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、ROM(Read Only Memory)30、HDD(Hard Disk Drive)40及びI/F50がバス80を介して接続されている。また、I/F50にはLCD(Liquid Crystal Display)60及び操作部70が接続されている。
Next, a hardware configuration of the
CPU10は演算手段であり、情報検索装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。ROM30は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。HDD40は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム等が格納される。
The
I/F50は、バス80と各種のハードウェアやネットワーク等を接続し制御する。I/F50は、例えばEthernet(登録商標)接続のインタフェースや、USB(Universal Serial Bus)接続のインタフェースを含む。LCD60は、ユーザが情報検索装置1の状態を確認するための視覚的ユーザインタフェースである。操作部70は、キーボードやマウス等、ユーザが情報検索装置1に情報を入力するためのユーザインタフェースである。尚、図1において説明したように、本実施形態に係る情報検索装置1は、サーバとして運用される。従って、LCD60及び操作部70等のユーザインタフェースは省略可能である。
The I / F 50 connects and controls the
このようなハードウェア構成において、ROM30やHDD40若しくは図示しない光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、CPU10の制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る情報検索装置1の機能を実現する機能ブロックが構成される。
In such a hardware configuration, a program stored in a storage medium such as the
次に、本実施形態に係る情報検索装置1の機能ブロックについて、図3を参照して説明する。図3は、本実施形態に係る情報検索装置1の機能ブロック及び情報検索装置1が検索する対象の文書情報を格納している対象情報DB200を示すブロック図である。図3に示すように、本実施形態に係る情報検索装置1は、通信部101、記憶部102、索引作成部103、単語特徴抽出部104、類似語句検索部105、キーワード候補検索部106、検索制御部107、全文検索部108を有する。これらの各機能部は、図2に示すRAM20にロードされたプログラムがCPU10の制御に従って動作することにより実現される。
Next, functional blocks of the
通信部101は、クライアント装置2や、対象情報DB200との通信を行う。
The
記憶部102は、後述する単語特徴情報102A等のデータを格納する。
The
索引作成部103は、対象情報DB200に格納されている検索対象の語句データに含まれる各単語の索引情報を作成し、記憶部102に記憶する。
The
単語特徴抽出部104は、索引作成部103により索引情報を作成された各単語について、単語特徴情報102Aを生成し、記憶部102に記憶する。図4は、単語特徴情報102Aの一例を示す図である。単語特徴情報102Aは、単語、Nグラム、文字列長、出現回数のデータの項目を含む。Nグラムは、各単語を所定の文字数毎に分割したデータである。例えば、「stationary」と「stationery」という2つの単語のNグラム(N=2の場合)は以下のようになる。
The word
stationary: st, ta, at, ti, io, on, na, ar, ry
stationery: st, ta, at, ti, io, on, ne, er, ry
文字列長は、各単語の文字数を示す。出現回数は、各単語が、対象情報DB200に格納されている検索対象のデータに含まれている回数または頻度を示す。
stationary: st, ta, at, ti, io, on, na, ar, ry
stationery: st, ta, at, ti, io, on, ne, er, ry
The character string length indicates the number of characters of each word. The number of appearances indicates the number or frequency at which each word is included in the search target data stored in the
類似語句検索部105は、例えば、検索者に入力されたキーワードに含まれる各単語を構成する複数の部分文字列の集合(Nグラム)と、単語特徴情報102Aに格納される各単語の「Nグラム」の情報とに基づいて、類似語句を抽出する。
The similar
類似語句検索部105及びキーワード候補検索部106は、対象情報DB200に格納されている語句の中から、指定されたキーワードの誤記または表記の揺れと推定されるキーワードの候補を検索するキーワード候補検索処理を行う。
The similar
類似語句検索部105は、キーワード候補検索処理において、キーワードと文字列が類似している類似語を、対象情報DB200に格納されている検索対象のデータの中から検索する。類似語句検索部105は、例えば、キーワードのNグラムと、単語特徴情報102Aの各単語のNグラムの一致度を計算し、対象情報DB200から、一致度が所定の閾値以上の単語を含む語句を、類似語句(類似語)として抽出する。一致度は、例えば、キーワードのNグラムが5個あり、一致するNグラムが4つであれば、4/5=80%と算出する。なお、類似語句検索部105は、その他の周知の手法により、類似語句を抽出する構成としてもよい。
In the keyword candidate search process, the similar
キーワード候補検索部106は、キーワード候補検索処理において、検索対象のデータにおける、キーワードの出現回数と、類似語句検索部105により検索された類似語の出現回数とに基づいて、類似語句検索部105により抽出された語句の中から、キーワードの誤記または表記の揺れと推定される単語の候補であるキーワード候補を検索する。
In the keyword candidate search process, the keyword
キーワード候補検索部106は、例えば、キーワードの出現回数と、類似語の出現回数との比が、所定の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断する。また、キーワード候補検索部106は、先頭の文字に所定の重み付けを付加した、キーワードと類似語との間の編集距離に基づいて、キーワードの誤記または表記の揺れである単語を検索する。また、キーワード候補検索部106は、キーワードに複数の単語が含まれる場合、キーワードに含まれる各単語と、類似語に含まれる各単語の編集距離の一致率に基づいて、キーワードの誤記または表記の揺れである単語を検索する。なお、キーワード候補検索処理の詳細例は後述する。
For example, when the ratio between the number of occurrences of a keyword and the number of appearances of a similar word is within a predetermined range, the keyword
検索制御部107は、通信部101を介して、クライアント装置2からキーワードを受信すると、当該キーワードと、類似語句検索部105やキーワード候補検索部106を用いて検索したキーワード候補とを、検索用のキーワードの候補としてクライアント装置2に送信する。なお、検索制御部107は、索引作成部103により作成された索引情報を用いて、キーワード候補を含む、例えば特許文書の出願人名のデータ等を、検索用のキーワードの候補としてクライアント装置2に送信する構成としてもよい。
When the
全文検索部108は、通信部101を介して、クライアント装置2から、1以上の検索用のキーワード群を受信すると、対象情報DB200から、当該キーワード群を含む文書を検索し、検索結果をクライアント装置2に送信する。
When the full-
次に、図5を参照して、情報検索システムの動作について説明する。図5は、情報検索システムにおける、情報検索処理のシーケンスの一例を示す図である。 Next, the operation of the information search system will be described with reference to FIG. FIG. 5 is a diagram illustrating an example of a sequence of information search processing in the information search system.
クライアント装置2は、検索者からのキーワードの入力操作を受け付ける(ステップS101)。クライアント装置2は、入力されたキーワードを含む検索要求を情報検索装置1に送信する(ステップS102)。
The
情報検索装置1は、対象情報DB200に保持されている検索対象のデータの中から、受信したキーワードの誤記または表記の揺れと推定されるキーワード候補を検索するキーワード候補検索処理を行う(ステップS103)。情報検索装置1は、キーワード、及び当該キーワードに基づいて抽出したキーワード候補を含む語句を、検索用のキーワードの候補としてクライアント装置2に送信する(ステップS104)。
The
クライアント装置2は、受信した検索用のキーワードの候補を検索者に表示し(ステップS105)、検索者から、検索用のキーワードの候補からの1以上のキーワード群の選択操作を受け付ける(ステップS106)。クライアント装置2は、検索者に選択された1以上のキーワード群を情報検索装置1に送信する(ステップS107)。
The
情報検索装置1は、受信した1以上のキーワードに基づいて、対象情報DB200に保持されている文書を検索し(ステップS108)、検索結果をクライアント装置2に送信する(ステップS109)。
The
クライアント装置2は、受信した検索結果を検索者に表示する(ステップS110)。
The
なお、キーワードは、1つの単語であってもよいし、スペース等により区切られた複数の単語を含む語句であってもよい。 The keyword may be a single word or a phrase including a plurality of words separated by a space or the like.
次に、図6を参照し、クライアント装置2が、図5のステップS101で、検索者からのキーワードの入力操作を受け付ける際に表示する表示画面例について説明する。図6は、キーワードの入力画面例を示す図である。検索者は、キーワードの入力欄501にキーワードを入力し、「検索」ボタン502を押下する。そして、クライアント装置2は、入力されたキーワードを含む検索要求を情報検索装置1に送信する。
Next, an example of a display screen displayed when the
次に、図7を参照し、クライアント装置2が、図5のステップS105、ステップS106で、受信した検索用のキーワードの候補を検索者に表示し、検索者からの1以上のキーワードの選択操作を受け付ける際に表示する表示画面例について説明する。図7は、検索用のキーワードの候補からの選択画面例を示す図である。例えば、デフォルトの状態で、全ての検索用のキーワードの候補が選択されているため503のようにグレーにマスクされており、検索者が、検索用のキーワードの候補から除外する語句に対してクリック等の操作を行うと、当該語句が選択されていない状態となり、504のようにグレーのマスクが外れた表示となる。また、「検索式」欄505には、現在選択されている検索用のキーワードの候補の一覧が表示されている。
Next, referring to FIG. 7, the
次に、図8を参照し、クライアント装置2が、図5のステップS107で、検索者に選択された1以上のキーワードを情報検索装置1に送信する際に表示する表示画面例について説明する。図8は、選択された検索用のキーワードにて検索を要求する際の表示画面例を示す図である。例えば、図7の「検索式」欄505に表示されている、選択された検索用のキーワードの候補の一覧を示すテキストデータを、検索者が、所定の検索条件の欄にコピー&ペーストし、「検索実行」ボタン507を押下する。それにより、クライアント装置2は、検索者に選択された1以上のキーワードを情報検索装置1に送信する。
Next, an example of a display screen displayed when the
次に、図9を参照し、クライアント装置2が、図5のステップS109で、受信した検索結果を検索者に表示する表示画面例について説明する。図9は、検索結果の表示画面例を示す図である。
Next, a display screen example in which the
次に、図10を参照して、キーワード候補検索部106による、図5のステップS103の、キーワードの誤記または表記の揺れと推定されるキーワード候補を検索するキーワード候補検索処理の詳細例について説明する。図10は、キーワード候補検索処理のフローチャートである。
Next, with reference to FIG. 10, a detailed example of keyword candidate search processing by the keyword
類似語句検索部105は、対象情報DB200に格納されている検索対象の語句の中から、キーワードの類似語句を抽出する(ステップS201)。
The similar
キーワード候補検索部106は、類似語句検索部105により抽出された語句の中から、文字列長に基づいて絞り込みを行う(ステップS202)。キーワード候補検索部106は、キーワードに複数の単語が含まれる場合は、キーワード及び類似語の語句の中から、スペース等で区切られた各単語を抽出し、キーワードに含まれる各単語と、各語句に含まれる各単語の、単語単位の文字列長に基づいて絞り込みを行う。キーワード候補検索部106は、例えば、キーワード中の単語と、当該キーワード中の単語に対応する語句中の単語の文字列長の差及び比の少なくとも一方が所定の閾値以上の場合は、当該語句をキーワード候補から取り除く。それにより、例えば、キーワード中の単語が「AAA」、当該単語に対応する類似語の語句中の単語が「A」の場合、当該類似語の語句をキーワード候補から取り除く。
The keyword
続いて、キーワード候補検索部106は、キーワードの出現回数と、絞り込みを行った類似語の各語句の出現回数の比(相対頻度)に基づいて絞り込みを行う(ステップS203)。キーワード候補検索部106は、例えば、キーワードの出現回数と、絞り込みを行った各語句の出現回数の比が、所定の範囲内(例えば、20以下から1/20以上)でなければ、当該語句をキーワード候補から取り除く。
Subsequently, the keyword
ここで、キーワード候補検索部106は、キーワードと単に綴りが類似している別の単語は、キーワードの出現回数と当該別の単語の出現回数の比(相対頻度)が比較的大きく、キーワードの誤記または表記の揺れは、キーワードの出現回数と当該誤記または表記の揺れの出現回数の比が比較的小さいという経験則に基づく特徴を利用する。
Here, the keyword
図10に戻り、キーワード候補検索処理のフローチャート説明を続ける。 Returning to FIG. 10, the description of the flowchart of the keyword candidate search process will be continued.
続いて、キーワード候補検索部106は、重み付けされた編集距離に基づいて絞り込みを行う(ステップS204)。なお、編集距離とは、2つの文字列の類似度を定量化するための数値であり、文字の挿入・削除・置換で一方の文字列を他方に変形するために必要な最小手順回数である。
Subsequently, the keyword
キーワード候補検索部106は、キーワードと、絞り込みを行った類似語の各語句との間の編集距離を算出し、編集距離が所定の閾値(例えば4)以上であれば、当該語句をキーワード候補から取り除く。ここで、キーワードと各語句の先頭の文字に対する編集距離に所定の重み付けを付加する。先頭の文字に、挿入、削除、置換等がされていた場合は、先頭の文字の編集距離に、例えば、4倍の重み付けを乗算する。これは、先頭の文字に対しては、誤記または表記の揺れが経験上少ないためである。また、置換、挿入、削除の各操作毎に、所定の重み付けを付加してもよい。また、特定の文字(例えば記号)については重みを下げる構成としてもよい。また、文字の入れ替えは編集距離を1と算出してもよい。例えば「AICOH」と「AICHO」とは、「H」を「O」に置換し、「O」を「H」に置換するため、本来の編集距離は2であるが、「H」と「O」の文字の入れ替えであるため、編集距離を1とカウントする。それにより、文字の入れ替えを誤記として検出しやすくなる。
The keyword
続いて、キーワード候補検索部106は、キーワードに含まれる各単語と、絞り込みを行った類似語の各語句に含まれる各単語の、単語単位の編集距離に基づいて絞り込みを行う(ステップS205)。キーワード候補検索部106は、キーワードに複数の単語が含まれる場合は、キーワード及び各語句の中から、スペース等で区切られた各単語を抽出し、キーワードに含まれる各単語と、各語句に含まれる各単語の、単語単位の編集距離に基づいて絞り込みを行う。キーワード候補検索部106は、例えば、キーワード中の単語と、当該単語に対応する語句中の単語の編集距離の一致率が所定の閾値(例えば50%)以下の場合は、当該語句をキーワード候補から取り除く。
Subsequently, the keyword
上述した例では、計算コストが高い編集距離に基づいた絞り込みを、キーワード候補検索処理において、各種の条件に基づいた絞り込みを行った後に行っている。それにより、キーワード候補検索処理をより高速に実行することができる。 In the above-described example, the narrowing based on the edit distance with high calculation cost is performed after narrowing based on various conditions in the keyword candidate search process. Thereby, keyword candidate search processing can be executed at higher speed.
ここで、図4に示す単語特徴情報を例として、キーワード候補検索処理の例を説明する。 Here, an example of keyword candidate search processing will be described using the word feature information shown in FIG. 4 as an example.
図4に示す単語特徴情報のNo.6の単語「station」は、No.7の単語「stationary」の部分文字列でもあり、Nグラムの一致度が高いため、類似語句検索部105により類似語句として検索される。しかし、キーワード候補検索部106により、図10のステップS202の文字列長に基づいた絞り込み、または、図10のステップS204の編集距離に基づいた絞り込みにより、キーワード候補から取り除くことができる。
No. of the word feature information shown in FIG. The word “station” in FIG. 7 is also a partial character string of the word “stationary” and has a high N-gram match, so that the similar
また、図4に示す単語特徴情報のNo.7の単語「stationary」と、No.8の単語「stationery」は文字列としては一文字違いである。そのため、Nグラムの一致度が高いので、類似語句検索部105により類似語句として検索される。また、キーワード候補検索部106による図10のステップS202の文字列長に基づいた絞り込み、及び、図10のステップS204の編集距離に基づいた絞り込みによっても、キーワード候補から取り除くことはできない。しかし、キーワード候補検索部106は、図10のステップS203の相対頻度に基づいた絞り込みにより、No.7の単語の出現回数と、No.8の単語の出現回数との比(例えば、39/25)が所定の範囲内でないと判断する。それにより、誤記または表記の揺れではなく、綴りの類似した別単語であると判断し、キーワード候補から取り除くことができる。
The word feature information No. 1 shown in FIG. 7 words “stationary” and No. 7 The word “stationery” of 8 is different by one character as a character string. Therefore, since the matching degree of N-grams is high, the similar
また、図4に示す単語特徴情報のNo.8の単語「stationery」と、No.9の単語「stationery」は、文字列としてはiとoの入れ替えのみの違いである。そのため、Nグラムの一致度が高いので、類似語句検索部105により類似語句として検索される。また、キーワード候補検索部106による図10のステップS202の文字列長に基づいた絞り込み、及び、図10のステップS204の編集距離に基づいた絞り込みによっても、キーワード候補から取り除かれない。また、キーワード候補検索部106は、図10のステップS203の相対頻度に基づいた絞り込みでも、No.8の単語の出現回数と、No.9の単語の出現回数との比(例えば、25/1)が所定の範囲内でないと判断する。それにより、誤記または表記の揺れであると判断し、キーワード候補から取り除かれないようにすることができる。なお、図4に示す単語特徴情報のNo.1の単語「acceleration」と、No.2の単語「accelaration」、及びNo.4の単語「commercial」と、No.2の単語「comercial」についても、それぞれ同様であり、キーワード候補検索部106は、誤記または表記の揺れであると判断し、キーワード候補から取り除かれないようにすることができる。
The word feature information No. 1 shown in FIG. 8 words “stationery” and The 9 word “stationery” is the only difference between the letter i and o. Therefore, since the matching degree of N-grams is high, the similar
<まとめ>
以上で説明したように、実施形態では、大規模な電子データから単語を収集し、単語の特徴を抽出するとき、綴りの類似度だけでなく、単語の出現回数(頻度)など、大規模データから得られる統計情報も単語特徴情報として格納しておく。そして、綴りの類似度に基づいた類似単語検索後に、単語の出現回数などの統計情報に基づいて、誤記または表記の揺れの単語と、綴りは類似しているが別の単語とを判別する。
<Summary>
As described above, in the embodiment, when collecting words from large-scale electronic data and extracting the characteristics of the words, large-scale data such as the number of appearances (frequency) of words as well as spelling similarity The statistical information obtained from is also stored as word feature information. Then, after a similar word search based on the similarity of spelling, based on statistical information such as the number of appearances of the word, an erroneously written or spelled word is distinguished from another word that is similar in spelling but different.
また、従来の、予め正解の辞書を作成しておき、入力されたキーワードに最も似ている単語を検索する方法では、例えば会社名や製品の品番等の単語の正解の辞書の場合、検索対象の会社名等が増える度に、それを辞書に反映するメンテナンスの手間が発生する。一方、上述の実施形態では、正解の辞書を作成する必要がないため、そのような手間が発生しない。 In addition, in the conventional method of creating a correct answer dictionary in advance and searching for a word most similar to the input keyword, for example, in the case of a correct answer dictionary of a word such as a company name or product part number, the search target Every time the company name increases, maintenance work is required to reflect it in the dictionary. On the other hand, in the above-described embodiment, since it is not necessary to create a correct dictionary, such trouble does not occur.
上述の実施形態では、検索対象のデータにおいて、検索対象の語句が大部分では正式に表記されており、稀に誤記または表記の揺れが存在する場合に、特に精度良く誤記または表記の揺れを検索できる。そのため、本実施形態は、特許文書の出願人名等に限らず、例えば、製品の型番、人名、地名等の、様々な種類の語句の誤記または表記の揺れを検索する装置に適用可能である。 In the above-described embodiment, in the search target data, most of the search target words are officially written, and in rare cases, there is a typographical error or a fluctuation of the typographical expression, so that the typographical error or the fluctuation of the typographical expression is particularly accurately searched. it can. Therefore, this embodiment is applicable not only to the name of the applicant of a patent document, but also to an apparatus that searches for misprints or fluctuations in notations of various types of words such as product model numbers, person names, and place names.
<変形例>
キーワード候補検索部106は、キーワードの出現回数に応じて、キーワード候補と判断する相対頻度の範囲を変更する構成としてもよい。その場合、例えば、以下のような構成としてもよい。キーワード候補検索部106は、キーワードの出現回数が所定の閾値(例えば100)以上の場合、キーワードの出現回数と、類似語の出現回数との比が、第1の範囲(例えば、20以下から1/20以上)内である場合に、当該類似語を、キーワードの誤記または表記の揺れであると判断する。キーワード候補検索部106は、キーワードの出現回数が上記所定の閾値未満の場合、キーワードの出現回数と、類似語の出現回数との比が、上記第1の範囲よりも広い第2の範囲(例えば、50以下から1/50以上)内である場合に、当該類似語を、キーワードの誤記または表記の揺れであると判断する。それにより、例えば、中小企業等で出願件数が少ないため特許文書の出願人名における出現回数が少ない等のキーワードの場合であるため、比較的検出の精度が低くなる場合に、より広範な類似語をキーワードの誤記または表記の揺れであると判断できる。それにより、検索者に、より広範な類義語をキーワードの誤記または表記の揺れの候補として提示でき、検索漏れ等を抑制できる。
<Modification>
The keyword
キーワード候補を検索する対象のデータが、特許明細書全文等の自然言語の場合は、周知の形態素解析等により、データを単語や用語などの単位に分割した後、上述した単語特徴情報の作成や、キーワード候補を検索する処理を行う構成とすればよい。 If the data to be searched for keyword candidates is a natural language such as the full text of a patent specification, the data is divided into units of words, terms, etc. by well-known morphological analysis, etc. The process for searching for keyword candidates may be performed.
検索者から入力されたキーワード自体が、誤記または表記の揺れの単語である場合、図10のステップS203にて検索されたキーワード候補のうち、出現回数が相対的に大きいものが正式な表記の単語であると推定することができる。そこで、検索制御部107は、以下の処理を行う構成としてもよい。まず、キーワードの出現回数と、当該キーワードのキーワード候補のうち最も出現回数が多い語句の出現回数との比が、所定の閾値以下(例えば1/20)であるか判断する。そして、所定の閾値以下であれば、通信部101を介して、クライアント装置2に、キーワードのキーワード候補のうち最も出現回数が多い語句を、キーワードの正式な表記として通知し、検索者に表示させる。それにより、検索者に、誤記等を指摘することができる。
When the keyword itself input by the searcher is a miswritten or written word, a keyword with a relatively large number of appearances among the keyword candidates searched in step S203 of FIG. 10 is a formal written word. It can be estimated that. Therefore, the
続いて、図11を参照して、検索者から入力されたキーワード自体が、誤記または表記の揺れの単語である場合に、正式な表記の単語を推定する処理の概念を説明する。図11は、入力された誤記等から、正式な表記を推定する処理の概念図である。図11では、各文字列が似ているほど距離が小さい、各文字列の類似度の距離を表す平面上で、各文字列の出現回数を縦軸としたイメージを表している。ここで、検索者から入力されたキーワードが「AICHO」の場合に、類似語句検索部105やキーワード候補検索部106で検索したキーワード候補のうち、最も出現回数が多い語句である「AICOH」を、正式な表記と推定し、検索者に表示(サジェスト)する。
Next, with reference to FIG. 11, the concept of processing for estimating a word with a formal notation when the keyword itself input by the searcher is a miswritten or written word will be described. FIG. 11 is a conceptual diagram of processing for estimating a formal notation from an input error or the like. FIG. 11 shows an image with the vertical axis representing the number of appearances of each character string on a plane representing the distance of the similarity of each character string, the distance being smaller as each character string is more similar. Here, when the keyword input by the searcher is “AICHO”, among the keyword candidates searched by the similar
検索制御部107は、検索者からのキーワード候補の検索結果に対するフィードバックの統計情報に基づいて、キーワード候補を選択する構成としてもよい。その場合、例えば、以下のような構成としてもよい。検索制御部107は、図5のステップS102により受信したキーワード、及び図5のステップS104で送信する検索用のキーワードの候補に対応付けて、図5のステップS107により受信した、検索者に選択された1以上のキーワード群を格納しておく。検索制御部107は、図5のステップS104にて、検索者に例えば所定回数以上連続して選択されなかった検索用のキーワードの候補を取り除いて送信する。
The
情報検索装置1は、例えば1以上の情報処理装置(コンピュータ)で構成される情報処理システムによるクラウドコンピューティングにより実現されていてもよい。例えば、索引作成部103、単語特徴抽出部104、全文検索部108等を、別体のコンピュータにより実現してもよい。また、情報検索装置1と、対象情報DBとを一体の装置として構成してもよい。情報検索装置1とクライアント装置2とを一体の装置として構成してもよい。
The
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。また、上述した各実施形態の一部又は全部を組み合わせることも可能である。 Although the preferred embodiment of the present invention has been described in detail above, the present invention is not limited to the specific embodiment, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed. Moreover, it is also possible to combine a part or all of each embodiment mentioned above.
1 情報検索装置(「情報処理装置」の一例)
101 通信部
102 記憶部
103 索引作成部
104 単語特徴抽出部
105 類似語句検索部(「第一の検索部」の一例)
106 キーワード候補検索部(「第二の検索部」の一例)
107 検索制御部(「キーワード取得部」の一例)
108 全文検索部
2 クライアント装置
200 対象情報DB
1 Information retrieval device (an example of "information processing device")
101
106 Keyword candidate search unit (an example of “second search unit”)
107 Search control unit (an example of “keyword acquisition unit”)
108 Full-
Claims (8)
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索する第一の検索部と、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索する第二の検索部と、
を備える情報処理装置。 A keyword acquisition unit for acquiring keywords;
A first search unit for searching for similar words having similar character strings to the keyword from data to be searched;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. A second search unit;
An information processing apparatus comprising:
請求項1に記載の情報処理装置。 When the ratio between the number of appearances of the keyword and the number of appearances of the similar word is within a predetermined range, the second search unit is an error in writing the keyword or shaking the notation of the keyword. To judge,
The information processing apparatus according to claim 1.
前記キーワードの出現回数が所定の閾値以上の場合、前記キーワードの出現回数と、前記類似語の出現回数との比が、第1の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断し、
前記キーワードの出現回数が前記所定の閾値未満の場合、前記キーワードの出現回数と、前記類似語の出現回数との比が、前記第1の範囲よりも広い第2の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断する、
請求項1または2に記載の情報処理装置。 The second search unit is
If the number of appearances of the keyword is equal to or greater than a predetermined threshold, if the ratio between the number of appearances of the keyword and the number of appearances of the similar word is within the first range, the similar word is mistakenly written for the keyword. Or judge that it is shaking of the notation,
When the number of appearances of the keyword is less than the predetermined threshold, the ratio between the number of appearances of the keyword and the number of appearances of the similar word is within a second range wider than the first range, Determining that the similar word is a typographical error or a shaking of the notation of the keyword,
The information processing apparatus according to claim 1 or 2.
請求項1乃至3のいずれか一項に記載の情報処理装置。 The second search unit further searches for a word that is a typographical error or a notation of the keyword based on an edit distance between the keyword and the similar word with a predetermined weight added to the first character. To
The information processing apparatus according to any one of claims 1 to 3.
請求項1乃至4のいずれか一項に記載の情報処理装置。 The second search unit further searches for a word that is a typographical error or a notation of the keyword based on a matching rate of each word included in the keyword and an edit distance of each word included in the similar word. To
The information processing apparatus according to any one of claims 1 to 4.
キーワードを取得するキーワード取得部と、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索する第一の検索部と、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索する第二の検索部と、
を備える情報処理システム。 An information processing system including one or more information processing devices,
A keyword acquisition unit for acquiring keywords;
A first search unit for searching for similar words having similar character strings to the keyword from data to be searched;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. A second search unit;
An information processing system comprising:
キーワードを取得するステップと、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索するステップと、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索するステップと、
を実行する、情報検索方法。 Information processing device
Obtaining a keyword;
Searching for similar words in which the keyword and the character string are similar from search target data;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. Steps,
Execute the information retrieval method.
キーワードを取得するステップと、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索するステップと、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索するステップと、
を実行させるプログラム。 On the computer,
Obtaining a keyword;
Searching for similar words in which the keyword and the character string are similar from search target data;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. Steps,
A program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015250334A JP2017117109A (en) | 2015-12-22 | 2015-12-22 | Information processing device, information processing system, information retrieval method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015250334A JP2017117109A (en) | 2015-12-22 | 2015-12-22 | Information processing device, information processing system, information retrieval method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017117109A true JP2017117109A (en) | 2017-06-29 |
Family
ID=59234259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015250334A Pending JP2017117109A (en) | 2015-12-22 | 2015-12-22 | Information processing device, information processing system, information retrieval method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017117109A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020077240A (en) * | 2018-11-08 | 2020-05-21 | 本田技研工業株式会社 | Supplier selection system |
-
2015
- 2015-12-22 JP JP2015250334A patent/JP2017117109A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020077240A (en) * | 2018-11-08 | 2020-05-21 | 本田技研工業株式会社 | Supplier selection system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5761833B2 (en) | Dictionary candidates for partial user input | |
JP4301515B2 (en) | Text display method, information processing apparatus, information processing system, and program | |
JP5241828B2 (en) | Dictionary word and idiom determination | |
US20090043741A1 (en) | Autocompletion and Automatic Input Method Correction for Partially Entered Search Query | |
EP3345118B1 (en) | Identifying query patterns and associated aggregate statistics among search queries | |
US8849653B2 (en) | Updating dictionary during application installation | |
US20120297294A1 (en) | Network search for writing assistance | |
US10459957B2 (en) | User-guided term suggestions | |
JP2005267638A (en) | System and method for improved spell checking | |
US20140324416A1 (en) | Method of automated analysis of text documents | |
JP2014517428A (en) | Detect the source language of search queries | |
US9772991B2 (en) | Text extraction | |
US8583415B2 (en) | Phonetic search using normalized string | |
JP4631795B2 (en) | Information search support system, information search support method, and information search support program | |
EP3356952B1 (en) | Method and system for ideogram character analysis | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
KR101565367B1 (en) | Method for calculating plagiarism rate of documents by number normalization | |
WO2015075920A1 (en) | Input assistance device, input assistance method and recording medium | |
JP2017117109A (en) | Information processing device, information processing system, information retrieval method, and program | |
US20230267274A1 (en) | Mapping entities in unstructured text documents via entity correction and entity resolution | |
JP6549441B2 (en) | INPUT SUPPORT DEVICE, PROGRAM, AND INPUT SUPPORT METHOD | |
EP4328764A1 (en) | Artificial intelligence-based system and method for improving speed and quality of work on literature reviews | |
JP2023003467A (en) | Support device, support system, support method and program | |
JP2023039822A (en) | Information processing device, information processing method, and information processing program | |
WO2017126057A1 (en) | Information search method |