JP2017117109A - Information processing device, information processing system, information retrieval method, and program - Google Patents

Information processing device, information processing system, information retrieval method, and program Download PDF

Info

Publication number
JP2017117109A
JP2017117109A JP2015250334A JP2015250334A JP2017117109A JP 2017117109 A JP2017117109 A JP 2017117109A JP 2015250334 A JP2015250334 A JP 2015250334A JP 2015250334 A JP2015250334 A JP 2015250334A JP 2017117109 A JP2017117109 A JP 2017117109A
Authority
JP
Japan
Prior art keywords
keyword
search
similar
word
appearances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015250334A
Other languages
Japanese (ja)
Inventor
健二 耒見田
Kenji Kurumida
健二 耒見田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015250334A priority Critical patent/JP2017117109A/en
Publication of JP2017117109A publication Critical patent/JP2017117109A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To discriminate between a word phrase of a different meaning having a spelling similar to a keyword and a clerical error of the keyword or a word phrase of notation inconsistency.SOLUTION: An information processing device includes a keyword acquisition part for acquiring a keyword, a first retrieval part for retrieving similar words in which a character string is similar to the keyword from data of a retrieval object, and a second retrieval part for retrieving candidates for words which are estimated to be a clerical error of the keyword or notation inconsistency from among the similar words on the basis of the appearance frequency of the keyword and the appearance frequency of the similar words in the data of the retrieval object.SELECTED DRAWING: Figure 3

Description

本発明は、情報処理装置、情報処理システム、情報検索方法、及びプログラムに関する。   The present invention relates to an information processing apparatus, an information processing system, an information search method, and a program.

従来、電子媒体等に格納された膨大な言語情報、テキスト情報から検索者が要求するものを効率的に検索する技術が要求されている。このような検索を行うため、言語情報、テキスト情報を読み込み、形態素解析等を実施して言語情報、テキスト情報に出現する単語や語句を索引語とする転置索引(転置ファイル)を作成しておき、検索者が入力するキーワードに対して、転置索引を利用して言語情報、テキスト情報を検索する技術が知られている。   2. Description of the Related Art Conventionally, there is a demand for a technique for efficiently retrieving what a searcher requests from a large amount of language information and text information stored in an electronic medium or the like. In order to perform such a search, a transposed index (transposed file) is created by reading linguistic information and text information, performing morphological analysis, etc., and using words and phrases appearing in the linguistic information and text information as index words. A technique for searching language information and text information using a transposed index for a keyword input by a searcher is known.

また、索引付けられた文字列と入力キーワードとの類似度(Nグラムの一致度や、編集距離、その他文字列から抽出される特徴情報)を利用して入力キーワードの類似語を検出し、これらを誤記または表記の揺れとして、入力キーワードとともに検索することで、検索者が入力するキーワード、または格納された言語情報、テキスト情報に誤記または表記の揺れがある場合であっても、検索漏れを防ぐ技術が知られている(例えば、特許文献1参照)。   Further, similar words of the input keyword are detected by using the similarity between the indexed character string and the input keyword (matching degree of N-gram, editing distance, and other feature information extracted from the character string). By searching with the input keyword as typographical error or notation, the keyword entered by the searcher, or the stored language information or text information can be prevented from being missed even if the typographical error or notation is shaken. A technique is known (see, for example, Patent Document 1).

しかし、従来の類似語を検出する技術では、誤記または表記の揺れのみならず、単に綴りが類似している別の意味の文字列も類似語として検出してしまうという問題があった。   However, the conventional technique for detecting similar words has a problem that not only erroneous writing or shaking of notation but also a character string having another meaning that is simply similar in spelling is detected as a similar word.

そこで、キーワードと綴りが類似している別の意味の語句と、キーワードの誤記または表記の揺れの語句とを判別できる技術を提供することを目的とする。   Accordingly, it is an object of the present invention to provide a technique capable of discriminating a word having another meaning similar in spelling with a keyword and a word having a misprinted keyword or a wobbling word.

情報処理装置において、キーワードを取得するキーワード取得部と、前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索する第一の検索部と、前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索する第二の検索部と、を備える。   In the information processing apparatus, a keyword acquisition unit that acquires a keyword, a first search unit that searches for similar words in which the keyword and a character string are similar, from search target data, and the search target data A second search unit for searching for a candidate word that is presumed to be an error in the keyword or a fluctuation of the notation from the similar words based on the number of appearances of the keywords and the number of appearances of the similar words; .

開示の技術によれば、キーワードと綴りが類似している別の意味の語句と、キーワードの誤記または表記の揺れの語句とを判別することが可能となる。   According to the disclosed technology, it is possible to discriminate between another meaning word / phrase similar in spelling to the keyword and a keyword error / notation fluctuation word / phrase.

実施形態に係る情報検索システムの運用形態を示す図である。It is a figure which shows the operation | use form of the information search system which concerns on embodiment. 実施形態に係る情報検索装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the information search device which concerns on embodiment. 実施形態に係る情報検索装置の機能構成を示す機能ブロック図である。It is a functional block diagram which shows the function structure of the information search device which concerns on embodiment. 単語特徴情報の一例を示す図である。It is a figure which shows an example of word feature information. 情報検索システムにおける、情報検索処理のシーケンスの一例を示す図である。It is a figure which shows an example of the sequence of an information search process in an information search system. キーワードの入力画面例を示す図である。It is a figure which shows the example of an input screen of a keyword. 候補から検索用のキーワードを選択する際の画面例を示す図である。It is a figure which shows the example of a screen at the time of selecting the keyword for a search from a candidate. 選択された検索用のキーワードにて検索を要求する際の表示画面例を示す図である。It is a figure which shows the example of a display screen at the time of requesting a search with the selected keyword for a search. 検索結果の表示画面例を示す図である。It is a figure which shows the example of a display screen of a search result. キーワード候補検索処理のフローチャートである。It is a flowchart of a keyword candidate search process. 入力された誤記等から、正式な表記を推定する処理の概念図である。It is a conceptual diagram of the process which estimates formal notation from the input error etc.

以下、図面を参照して、本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本実施形態においては、特許文書を検索する情報検索装置を含む情報検索システムを例として説明する。   In the present embodiment, an information search system including an information search device for searching for patent documents will be described as an example.

図1は、本実施の形態に係る情報検索システムの運用形態の例を示す図である。図1に示すように、本実施形態に係る情報検索システムは、情報検索装置1、クライアント装置2及び対象情報DB200を含む。クライアント装置2は、PC(Personal Computer)等の一般的な情報処理装置によって構成される。情報検索装置1は、ネットワークを介してクライアント装置2と接続されており、クライアント装置2からの検索要求を受けて対象情報DB200に格納されている文書情報を検索するサーバとして運用される。   FIG. 1 is a diagram illustrating an example of an operation mode of the information search system according to the present embodiment. As illustrated in FIG. 1, the information search system according to the present embodiment includes an information search device 1, a client device 2, and a target information DB 200. The client device 2 is configured by a general information processing device such as a PC (Personal Computer). The information retrieval apparatus 1 is connected to the client apparatus 2 via a network, and is operated as a server that retrieves document information stored in the target information DB 200 in response to a retrieval request from the client apparatus 2.

対象情報DB200は、検索対象の情報として特許文献の情報を記憶している。即ち、本実施形態に係る検索対象情報は、対象情報DB200に格納されている特許文献情報である。尚、図1に示すように、本実施形態においては、対象情報DB200が情報検索装置1とは別に設けられている例を説明するが、対象情報DB200を情報検索装置1内部に構成することも可能である。対象情報DB200は、HDD等の不揮発性記憶媒体によって構成される。   The target information DB 200 stores patent document information as search target information. That is, the search target information according to the present embodiment is patent document information stored in the target information DB 200. As shown in FIG. 1, in this embodiment, an example in which the target information DB 200 is provided separately from the information search apparatus 1 will be described. However, the target information DB 200 may be configured inside the information search apparatus 1. Is possible. The target information DB 200 is configured by a nonvolatile storage medium such as an HDD.

次に、本実施形態に係る情報検索装置1のハードウェア構成について説明する。図2は、本実施形態に係る情報検索装置1のハードウェア構成を示すブロック図である。図2に示すように、本実施形態に係る情報検索装置1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を有する。即ち、本実施形態に係る情報検索装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、ROM(Read Only Memory)30、HDD(Hard Disk Drive)40及びI/F50がバス80を介して接続されている。また、I/F50にはLCD(Liquid Crystal Display)60及び操作部70が接続されている。   Next, a hardware configuration of the information search apparatus 1 according to the present embodiment will be described. FIG. 2 is a block diagram illustrating a hardware configuration of the information search apparatus 1 according to the present embodiment. As shown in FIG. 2, the information search apparatus 1 according to the present embodiment has the same configuration as an information processing terminal such as a general server or a PC (Personal Computer). That is, the information search apparatus 1 according to the present embodiment includes a CPU (Central Processing Unit) 10, a RAM (Random Access Memory) 20, a ROM (Read Only Memory) 30, an HDD (Hard Disk Drive) 40, and an I / F 50. 80 is connected. Further, an LCD (Liquid Crystal Display) 60 and an operation unit 70 are connected to the I / F 50.

CPU10は演算手段であり、情報検索装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。ROM30は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。HDD40は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム等が格納される。   The CPU 10 is a calculation means and controls the operation of the entire information retrieval apparatus 1. The RAM 20 is a volatile storage medium capable of reading and writing information at high speed, and is used as a work area when the CPU 10 processes information. The ROM 30 is a read-only nonvolatile storage medium and stores a program such as firmware. The HDD 40 is a non-volatile storage medium that can read and write information, and stores an OS (Operating System), various control programs, application programs, and the like.

I/F50は、バス80と各種のハードウェアやネットワーク等を接続し制御する。I/F50は、例えばEthernet(登録商標)接続のインタフェースや、USB(Universal Serial Bus)接続のインタフェースを含む。LCD60は、ユーザが情報検索装置1の状態を確認するための視覚的ユーザインタフェースである。操作部70は、キーボードやマウス等、ユーザが情報検索装置1に情報を入力するためのユーザインタフェースである。尚、図1において説明したように、本実施形態に係る情報検索装置1は、サーバとして運用される。従って、LCD60及び操作部70等のユーザインタフェースは省略可能である。   The I / F 50 connects and controls the bus 80 and various hardware and networks. The I / F 50 includes, for example, an Ethernet (registered trademark) connection interface and a USB (Universal Serial Bus) connection interface. The LCD 60 is a visual user interface for the user to check the state of the information search device 1. The operation unit 70 is a user interface such as a keyboard and a mouse for the user to input information to the information search apparatus 1. As described with reference to FIG. 1, the information search apparatus 1 according to the present embodiment is operated as a server. Therefore, user interfaces such as the LCD 60 and the operation unit 70 can be omitted.

このようなハードウェア構成において、ROM30やHDD40若しくは図示しない光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、CPU10の制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る情報検索装置1の機能を実現する機能ブロックが構成される。   In such a hardware configuration, a program stored in a storage medium such as the ROM 30, the HDD 40, or an optical disk (not shown) is read into the RAM 20, and operates according to the control of the CPU 10, thereby configuring a software control unit. A functional block that realizes the function of the information search apparatus 1 according to the present embodiment is configured by a combination of the software control unit configured as described above and hardware.

次に、本実施形態に係る情報検索装置1の機能ブロックについて、図3を参照して説明する。図3は、本実施形態に係る情報検索装置1の機能ブロック及び情報検索装置1が検索する対象の文書情報を格納している対象情報DB200を示すブロック図である。図3に示すように、本実施形態に係る情報検索装置1は、通信部101、記憶部102、索引作成部103、単語特徴抽出部104、類似語句検索部105、キーワード候補検索部106、検索制御部107、全文検索部108を有する。これらの各機能部は、図2に示すRAM20にロードされたプログラムがCPU10の制御に従って動作することにより実現される。   Next, functional blocks of the information search apparatus 1 according to the present embodiment will be described with reference to FIG. FIG. 3 is a block diagram showing a target information DB 200 that stores functional blocks of the information search apparatus 1 according to the present embodiment and document information to be searched by the information search apparatus 1. As shown in FIG. 3, the information search apparatus 1 according to the present embodiment includes a communication unit 101, a storage unit 102, an index creation unit 103, a word feature extraction unit 104, a similar phrase search unit 105, a keyword candidate search unit 106, a search A control unit 107 and a full-text search unit 108 are included. Each of these functional units is realized by a program loaded in the RAM 20 shown in FIG.

通信部101は、クライアント装置2や、対象情報DB200との通信を行う。   The communication unit 101 communicates with the client device 2 and the target information DB 200.

記憶部102は、後述する単語特徴情報102A等のデータを格納する。   The storage unit 102 stores data such as word feature information 102A described later.

索引作成部103は、対象情報DB200に格納されている検索対象の語句データに含まれる各単語の索引情報を作成し、記憶部102に記憶する。   The index creation unit 103 creates index information for each word included in the search target phrase data stored in the target information DB 200 and stores the index information in the storage unit 102.

単語特徴抽出部104は、索引作成部103により索引情報を作成された各単語について、単語特徴情報102Aを生成し、記憶部102に記憶する。図4は、単語特徴情報102Aの一例を示す図である。単語特徴情報102Aは、単語、Nグラム、文字列長、出現回数のデータの項目を含む。Nグラムは、各単語を所定の文字数毎に分割したデータである。例えば、「stationary」と「stationery」という2つの単語のNグラム(N=2の場合)は以下のようになる。   The word feature extraction unit 104 generates word feature information 102 </ b> A for each word for which index information has been created by the index creation unit 103 and stores it in the storage unit 102. FIG. 4 is a diagram illustrating an example of the word feature information 102A. The word feature information 102A includes data items such as a word, N-gram, character string length, and number of appearances. The N-gram is data obtained by dividing each word by a predetermined number of characters. For example, N-grams of two words “stationary” and “stationery” (when N = 2) are as follows.

stationary: st, ta, at, ti, io, on, na, ar, ry
stationery: st, ta, at, ti, io, on, ne, er, ry
文字列長は、各単語の文字数を示す。出現回数は、各単語が、対象情報DB200に格納されている検索対象のデータに含まれている回数または頻度を示す。
stationary: st, ta, at, ti, io, on, na, ar, ry
stationery: st, ta, at, ti, io, on, ne, er, ry
The character string length indicates the number of characters of each word. The number of appearances indicates the number or frequency at which each word is included in the search target data stored in the target information DB 200.

類似語句検索部105は、例えば、検索者に入力されたキーワードに含まれる各単語を構成する複数の部分文字列の集合(Nグラム)と、単語特徴情報102Aに格納される各単語の「Nグラム」の情報とに基づいて、類似語句を抽出する。   The similar phrase search unit 105, for example, sets “N-grams” of a plurality of partial character strings constituting each word included in the keyword input by the searcher and “N” of each word stored in the word feature information 102A. Based on the “gram” information, similar phrases are extracted.

類似語句検索部105及びキーワード候補検索部106は、対象情報DB200に格納されている語句の中から、指定されたキーワードの誤記または表記の揺れと推定されるキーワードの候補を検索するキーワード候補検索処理を行う。   The similar word search unit 105 and the keyword candidate search unit 106 search for keyword candidates that are presumed to be erroneously written or fluctuated in the specified keyword from the words stored in the target information DB 200. I do.

類似語句検索部105は、キーワード候補検索処理において、キーワードと文字列が類似している類似語を、対象情報DB200に格納されている検索対象のデータの中から検索する。類似語句検索部105は、例えば、キーワードのNグラムと、単語特徴情報102Aの各単語のNグラムの一致度を計算し、対象情報DB200から、一致度が所定の閾値以上の単語を含む語句を、類似語句(類似語)として抽出する。一致度は、例えば、キーワードのNグラムが5個あり、一致するNグラムが4つであれば、4/5=80%と算出する。なお、類似語句検索部105は、その他の周知の手法により、類似語句を抽出する構成としてもよい。   In the keyword candidate search process, the similar phrase search unit 105 searches for similar words having similar keywords and character strings from search target data stored in the target information DB 200. The similar phrase search unit 105 calculates, for example, the degree of coincidence between the N gram of the keyword and the N gram of each word in the word feature information 102A, and searches the target information DB 200 for a phrase including a word having a degree of coincidence of a predetermined threshold or more. , And extracted as a similar phrase (similar word). For example, if there are five N-grams of keywords and four N-grams match, the degree of coincidence is calculated as 4/5 = 80%. Note that the similar phrase search unit 105 may be configured to extract similar phrases using other well-known methods.

キーワード候補検索部106は、キーワード候補検索処理において、検索対象のデータにおける、キーワードの出現回数と、類似語句検索部105により検索された類似語の出現回数とに基づいて、類似語句検索部105により抽出された語句の中から、キーワードの誤記または表記の揺れと推定される単語の候補であるキーワード候補を検索する。   In the keyword candidate search process, the keyword candidate search unit 106 uses the similar phrase search unit 105 based on the number of occurrences of the keyword in the search target data and the number of similar words searched by the similar phrase search unit 105. From the extracted words and phrases, a keyword candidate that is a word candidate that is estimated to be a misprint of the keyword or a fluctuation of the notation is searched.

キーワード候補検索部106は、例えば、キーワードの出現回数と、類似語の出現回数との比が、所定の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断する。また、キーワード候補検索部106は、先頭の文字に所定の重み付けを付加した、キーワードと類似語との間の編集距離に基づいて、キーワードの誤記または表記の揺れである単語を検索する。また、キーワード候補検索部106は、キーワードに複数の単語が含まれる場合、キーワードに含まれる各単語と、類似語に含まれる各単語の編集距離の一致率に基づいて、キーワードの誤記または表記の揺れである単語を検索する。なお、キーワード候補検索処理の詳細例は後述する。   For example, when the ratio between the number of occurrences of a keyword and the number of appearances of a similar word is within a predetermined range, the keyword candidate search unit 106 determines that the similar word is erroneously written in the keyword or shakes the notation. to decide. In addition, the keyword candidate search unit 106 searches for a word that is a misprint of the keyword or a fluctuation of the notation based on the edit distance between the keyword and the similar word with a predetermined weight added to the first character. In addition, when the keyword includes a plurality of words, the keyword candidate search unit 106 uses a keyword error or notation based on the matching rate of the edit distance between each word included in the keyword and each word included in the similar word. Search for words that are shaking. A detailed example of keyword candidate search processing will be described later.

検索制御部107は、通信部101を介して、クライアント装置2からキーワードを受信すると、当該キーワードと、類似語句検索部105やキーワード候補検索部106を用いて検索したキーワード候補とを、検索用のキーワードの候補としてクライアント装置2に送信する。なお、検索制御部107は、索引作成部103により作成された索引情報を用いて、キーワード候補を含む、例えば特許文書の出願人名のデータ等を、検索用のキーワードの候補としてクライアント装置2に送信する構成としてもよい。   When the search control unit 107 receives a keyword from the client device 2 via the communication unit 101, the search control unit 107 uses the keyword and the keyword candidate searched using the similar phrase search unit 105 or the keyword candidate search unit 106 for search. It transmits to the client apparatus 2 as a keyword candidate. Note that the search control unit 107 uses the index information created by the index creation unit 103 to transmit, for example, data on the applicant name of a patent document, including keyword candidates, to the client apparatus 2 as search keyword candidates. It is good also as composition to do.

全文検索部108は、通信部101を介して、クライアント装置2から、1以上の検索用のキーワード群を受信すると、対象情報DB200から、当該キーワード群を含む文書を検索し、検索結果をクライアント装置2に送信する。   When the full-text search unit 108 receives one or more search keyword groups from the client device 2 via the communication unit 101, the full-text search unit 108 searches the target information DB 200 for a document including the keyword group, and the search result is sent to the client device. 2 to send.

次に、図5を参照して、情報検索システムの動作について説明する。図5は、情報検索システムにおける、情報検索処理のシーケンスの一例を示す図である。   Next, the operation of the information search system will be described with reference to FIG. FIG. 5 is a diagram illustrating an example of a sequence of information search processing in the information search system.

クライアント装置2は、検索者からのキーワードの入力操作を受け付ける(ステップS101)。クライアント装置2は、入力されたキーワードを含む検索要求を情報検索装置1に送信する(ステップS102)。   The client device 2 receives a keyword input operation from the searcher (step S101). The client device 2 transmits a search request including the input keyword to the information search device 1 (step S102).

情報検索装置1は、対象情報DB200に保持されている検索対象のデータの中から、受信したキーワードの誤記または表記の揺れと推定されるキーワード候補を検索するキーワード候補検索処理を行う(ステップS103)。情報検索装置1は、キーワード、及び当該キーワードに基づいて抽出したキーワード候補を含む語句を、検索用のキーワードの候補としてクライアント装置2に送信する(ステップS104)。   The information search apparatus 1 performs a keyword candidate search process for searching for a keyword candidate that is estimated to be a typographical error or notation of the received keyword from the search target data held in the target information DB 200 (step S103). . The information search device 1 transmits a keyword and a phrase including the keyword candidate extracted based on the keyword to the client device 2 as a search keyword candidate (step S104).

クライアント装置2は、受信した検索用のキーワードの候補を検索者に表示し(ステップS105)、検索者から、検索用のキーワードの候補からの1以上のキーワード群の選択操作を受け付ける(ステップS106)。クライアント装置2は、検索者に選択された1以上のキーワード群を情報検索装置1に送信する(ステップS107)。   The client apparatus 2 displays the received search keyword candidates to the searcher (step S105), and accepts an operation for selecting one or more keyword groups from the search keyword candidates from the searcher (step S106). . The client device 2 transmits one or more keyword groups selected by the searcher to the information search device 1 (step S107).

情報検索装置1は、受信した1以上のキーワードに基づいて、対象情報DB200に保持されている文書を検索し(ステップS108)、検索結果をクライアント装置2に送信する(ステップS109)。   The information search device 1 searches the document held in the target information DB 200 based on the received one or more keywords (step S108), and transmits the search result to the client device 2 (step S109).

クライアント装置2は、受信した検索結果を検索者に表示する(ステップS110)。   The client device 2 displays the received search result to the searcher (step S110).

なお、キーワードは、1つの単語であってもよいし、スペース等により区切られた複数の単語を含む語句であってもよい。   The keyword may be a single word or a phrase including a plurality of words separated by a space or the like.

次に、図6を参照し、クライアント装置2が、図5のステップS101で、検索者からのキーワードの入力操作を受け付ける際に表示する表示画面例について説明する。図6は、キーワードの入力画面例を示す図である。検索者は、キーワードの入力欄501にキーワードを入力し、「検索」ボタン502を押下する。そして、クライアント装置2は、入力されたキーワードを含む検索要求を情報検索装置1に送信する。   Next, an example of a display screen displayed when the client apparatus 2 accepts a keyword input operation from a searcher in step S101 of FIG. 5 will be described with reference to FIG. FIG. 6 is a diagram illustrating an example of a keyword input screen. The searcher inputs a keyword in the keyword input field 501 and presses a “search” button 502. Then, the client device 2 transmits a search request including the input keyword to the information search device 1.

次に、図7を参照し、クライアント装置2が、図5のステップS105、ステップS106で、受信した検索用のキーワードの候補を検索者に表示し、検索者からの1以上のキーワードの選択操作を受け付ける際に表示する表示画面例について説明する。図7は、検索用のキーワードの候補からの選択画面例を示す図である。例えば、デフォルトの状態で、全ての検索用のキーワードの候補が選択されているため503のようにグレーにマスクされており、検索者が、検索用のキーワードの候補から除外する語句に対してクリック等の操作を行うと、当該語句が選択されていない状態となり、504のようにグレーのマスクが外れた表示となる。また、「検索式」欄505には、現在選択されている検索用のキーワードの候補の一覧が表示されている。   Next, referring to FIG. 7, the client device 2 displays the received keyword candidates for search in step S105 and step S106 in FIG. 5 to the searcher, and selects one or more keywords from the searcher. An example of a display screen that is displayed when receiving a message will be described. FIG. 7 is a diagram illustrating an example of a selection screen from search keyword candidates. For example, since all search keyword candidates are selected in the default state, they are masked in gray as in 503, and the searcher clicks on a word or phrase excluded from the search keyword candidates. When an operation such as this is performed, the word / phrase is not selected, and a gray mask is removed as in 504. The “search formula” column 505 displays a list of keyword candidates for search that are currently selected.

次に、図8を参照し、クライアント装置2が、図5のステップS107で、検索者に選択された1以上のキーワードを情報検索装置1に送信する際に表示する表示画面例について説明する。図8は、選択された検索用のキーワードにて検索を要求する際の表示画面例を示す図である。例えば、図7の「検索式」欄505に表示されている、選択された検索用のキーワードの候補の一覧を示すテキストデータを、検索者が、所定の検索条件の欄にコピー&ペーストし、「検索実行」ボタン507を押下する。それにより、クライアント装置2は、検索者に選択された1以上のキーワードを情報検索装置1に送信する。   Next, an example of a display screen displayed when the client apparatus 2 transmits one or more keywords selected by the searcher to the information search apparatus 1 in step S107 of FIG. 5 will be described with reference to FIG. FIG. 8 is a diagram illustrating an example of a display screen when a search is requested using a selected search keyword. For example, the searcher copies and pastes text data indicating a list of selected search keyword candidates displayed in the “search expression” field 505 in FIG. 7 into a predetermined search condition field, A “search execution” button 507 is pressed. Thereby, the client apparatus 2 transmits one or more keywords selected by the searcher to the information search apparatus 1.

次に、図9を参照し、クライアント装置2が、図5のステップS109で、受信した検索結果を検索者に表示する表示画面例について説明する。図9は、検索結果の表示画面例を示す図である。   Next, a display screen example in which the client device 2 displays the received search result to the searcher in step S109 of FIG. 5 will be described with reference to FIG. FIG. 9 shows an example of a search result display screen.

次に、図10を参照して、キーワード候補検索部106による、図5のステップS103の、キーワードの誤記または表記の揺れと推定されるキーワード候補を検索するキーワード候補検索処理の詳細例について説明する。図10は、キーワード候補検索処理のフローチャートである。   Next, with reference to FIG. 10, a detailed example of keyword candidate search processing by the keyword candidate search unit 106 for searching for a keyword candidate estimated as a keyword error or notation in step S103 in FIG. 5 will be described. . FIG. 10 is a flowchart of keyword candidate search processing.

類似語句検索部105は、対象情報DB200に格納されている検索対象の語句の中から、キーワードの類似語句を抽出する(ステップS201)。   The similar phrase search unit 105 extracts a keyword similar phrase from the search target phrases stored in the target information DB 200 (step S201).

キーワード候補検索部106は、類似語句検索部105により抽出された語句の中から、文字列長に基づいて絞り込みを行う(ステップS202)。キーワード候補検索部106は、キーワードに複数の単語が含まれる場合は、キーワード及び類似語の語句の中から、スペース等で区切られた各単語を抽出し、キーワードに含まれる各単語と、各語句に含まれる各単語の、単語単位の文字列長に基づいて絞り込みを行う。キーワード候補検索部106は、例えば、キーワード中の単語と、当該キーワード中の単語に対応する語句中の単語の文字列長の差及び比の少なくとも一方が所定の閾値以上の場合は、当該語句をキーワード候補から取り除く。それにより、例えば、キーワード中の単語が「AAA」、当該単語に対応する類似語の語句中の単語が「A」の場合、当該類似語の語句をキーワード候補から取り除く。   The keyword candidate search unit 106 narrows down the words extracted by the similar word search unit 105 based on the character string length (step S202). When the keyword includes a plurality of words, the keyword candidate search unit 106 extracts each word separated by a space or the like from the keywords and similar words, and each word included in the keyword and each word Narrowing is performed based on the character string length of each word included in. For example, when at least one of the difference in the character string length and the ratio between the word in the keyword and the word in the phrase corresponding to the word in the keyword is equal to or greater than a predetermined threshold, the keyword candidate search unit 106 selects the word or phrase. Remove from keyword candidates. Thereby, for example, when the word in the keyword is “AAA” and the word in the phrase of the similar word corresponding to the word is “A”, the phrase of the similar word is removed from the keyword candidates.

続いて、キーワード候補検索部106は、キーワードの出現回数と、絞り込みを行った類似語の各語句の出現回数の比(相対頻度)に基づいて絞り込みを行う(ステップS203)。キーワード候補検索部106は、例えば、キーワードの出現回数と、絞り込みを行った各語句の出現回数の比が、所定の範囲内(例えば、20以下から1/20以上)でなければ、当該語句をキーワード候補から取り除く。   Subsequently, the keyword candidate search unit 106 performs narrowing down based on the ratio (relative frequency) of the number of appearances of the keyword and the number of appearances of each phrase of the similar word that has been narrowed down (step S203). For example, if the ratio between the number of occurrences of a keyword and the number of occurrences of each narrowed phrase is not within a predetermined range (for example, 20 or less to 1/20 or more), the keyword candidate search unit 106 selects the word or phrase. Remove from keyword candidates.

ここで、キーワード候補検索部106は、キーワードと単に綴りが類似している別の単語は、キーワードの出現回数と当該別の単語の出現回数の比(相対頻度)が比較的大きく、キーワードの誤記または表記の揺れは、キーワードの出現回数と当該誤記または表記の揺れの出現回数の比が比較的小さいという経験則に基づく特徴を利用する。   Here, the keyword candidate search unit 106 has a relatively large ratio (relative frequency) between the number of appearances of the keyword and the number of appearances of the other word for another word that is simply spelled similar to the keyword. Alternatively, the swing of the notation uses a feature based on an empirical rule that the ratio between the number of appearances of the keyword and the number of appearances of the misprint or the notation swing is relatively small.

図10に戻り、キーワード候補検索処理のフローチャート説明を続ける。   Returning to FIG. 10, the description of the flowchart of the keyword candidate search process will be continued.

続いて、キーワード候補検索部106は、重み付けされた編集距離に基づいて絞り込みを行う(ステップS204)。なお、編集距離とは、2つの文字列の類似度を定量化するための数値であり、文字の挿入・削除・置換で一方の文字列を他方に変形するために必要な最小手順回数である。   Subsequently, the keyword candidate search unit 106 narrows down based on the weighted edit distance (step S204). The edit distance is a numerical value for quantifying the degree of similarity between two character strings, and is the minimum number of steps required to transform one character string into the other by insertion / deletion / replacement of characters. .

キーワード候補検索部106は、キーワードと、絞り込みを行った類似語の各語句との間の編集距離を算出し、編集距離が所定の閾値(例えば4)以上であれば、当該語句をキーワード候補から取り除く。ここで、キーワードと各語句の先頭の文字に対する編集距離に所定の重み付けを付加する。先頭の文字に、挿入、削除、置換等がされていた場合は、先頭の文字の編集距離に、例えば、4倍の重み付けを乗算する。これは、先頭の文字に対しては、誤記または表記の揺れが経験上少ないためである。また、置換、挿入、削除の各操作毎に、所定の重み付けを付加してもよい。また、特定の文字(例えば記号)については重みを下げる構成としてもよい。また、文字の入れ替えは編集距離を1と算出してもよい。例えば「AICOH」と「AICHO」とは、「H」を「O」に置換し、「O」を「H」に置換するため、本来の編集距離は2であるが、「H」と「O」の文字の入れ替えであるため、編集距離を1とカウントする。それにより、文字の入れ替えを誤記として検出しやすくなる。   The keyword candidate search unit 106 calculates an edit distance between the keyword and each word / phrase of the similar word that has been narrowed down, and if the edit distance is equal to or greater than a predetermined threshold (for example, 4), the keyword / phrase is searched from the keyword candidate. remove. Here, a predetermined weight is added to the editing distance between the keyword and the first character of each phrase. If the first character has been inserted, deleted, replaced, etc., the edit distance of the first character is multiplied by, for example, four times the weight. This is because there is little experience of writing errors or notation with respect to the first character. Also, a predetermined weight may be added for each operation of replacement, insertion, and deletion. Moreover, it is good also as a structure which reduces a weight about a specific character (for example, symbol). In addition, the replacement distance may be calculated with an edit distance of 1. For example, “AICOH” and “AICHO” replace “H” with “O” and “O” with “H”, so the original editing distance is 2, but “H” and “O” ", The edit distance is counted as 1. Thereby, it becomes easy to detect the replacement of characters as an error.

続いて、キーワード候補検索部106は、キーワードに含まれる各単語と、絞り込みを行った類似語の各語句に含まれる各単語の、単語単位の編集距離に基づいて絞り込みを行う(ステップS205)。キーワード候補検索部106は、キーワードに複数の単語が含まれる場合は、キーワード及び各語句の中から、スペース等で区切られた各単語を抽出し、キーワードに含まれる各単語と、各語句に含まれる各単語の、単語単位の編集距離に基づいて絞り込みを行う。キーワード候補検索部106は、例えば、キーワード中の単語と、当該単語に対応する語句中の単語の編集距離の一致率が所定の閾値(例えば50%)以下の場合は、当該語句をキーワード候補から取り除く。   Subsequently, the keyword candidate search unit 106 narrows down each word included in the keyword and each word included in each word / phrase of the narrowed-down similar word based on the editing distance in units of words (step S205). When the keyword includes a plurality of words, the keyword candidate search unit 106 extracts each word separated by a space or the like from the keyword and each phrase, and includes each word included in the keyword and each phrase. Narrowing is performed based on the word-by-word editing distance of each word. For example, when the matching rate of the edit distance between the word in the keyword and the word in the word corresponding to the word is equal to or less than a predetermined threshold (for example, 50%), the keyword candidate search unit 106 selects the word from the keyword candidate. remove.

上述した例では、計算コストが高い編集距離に基づいた絞り込みを、キーワード候補検索処理において、各種の条件に基づいた絞り込みを行った後に行っている。それにより、キーワード候補検索処理をより高速に実行することができる。   In the above-described example, the narrowing based on the edit distance with high calculation cost is performed after narrowing based on various conditions in the keyword candidate search process. Thereby, keyword candidate search processing can be executed at higher speed.

ここで、図4に示す単語特徴情報を例として、キーワード候補検索処理の例を説明する。   Here, an example of keyword candidate search processing will be described using the word feature information shown in FIG. 4 as an example.

図4に示す単語特徴情報のNo.6の単語「station」は、No.7の単語「stationary」の部分文字列でもあり、Nグラムの一致度が高いため、類似語句検索部105により類似語句として検索される。しかし、キーワード候補検索部106により、図10のステップS202の文字列長に基づいた絞り込み、または、図10のステップS204の編集距離に基づいた絞り込みにより、キーワード候補から取り除くことができる。   No. of the word feature information shown in FIG. The word “station” in FIG. 7 is also a partial character string of the word “stationary” and has a high N-gram match, so that the similar phrase search unit 105 searches for a similar phrase. However, the keyword candidate search unit 106 can remove keywords from the keyword candidates by narrowing down based on the character string length in step S202 in FIG. 10 or narrowing down based on the edit distance in step S204 in FIG.

また、図4に示す単語特徴情報のNo.7の単語「stationary」と、No.8の単語「stationery」は文字列としては一文字違いである。そのため、Nグラムの一致度が高いので、類似語句検索部105により類似語句として検索される。また、キーワード候補検索部106による図10のステップS202の文字列長に基づいた絞り込み、及び、図10のステップS204の編集距離に基づいた絞り込みによっても、キーワード候補から取り除くことはできない。しかし、キーワード候補検索部106は、図10のステップS203の相対頻度に基づいた絞り込みにより、No.7の単語の出現回数と、No.8の単語の出現回数との比(例えば、39/25)が所定の範囲内でないと判断する。それにより、誤記または表記の揺れではなく、綴りの類似した別単語であると判断し、キーワード候補から取り除くことができる。   The word feature information No. 1 shown in FIG. 7 words “stationary” and No. 7 The word “stationery” of 8 is different by one character as a character string. Therefore, since the matching degree of N-grams is high, the similar phrase search unit 105 searches for similar phrases. Moreover, it cannot be removed from the keyword candidates by narrowing down based on the character string length in step S202 of FIG. 10 and narrowing down based on the editing distance in step S204 of FIG. However, the keyword candidate search unit 106 uses the narrowing-down based on the relative frequency in step S203 in FIG. No. 7 appearance frequency, and No. 7 It is determined that the ratio (for example, 39/25) with the number of appearances of the word 8 is not within a predetermined range. As a result, it can be determined that it is another word with similar spelling, not an error or shaking of the notation, and can be removed from the keyword candidates.

また、図4に示す単語特徴情報のNo.8の単語「stationery」と、No.9の単語「stationery」は、文字列としてはiとoの入れ替えのみの違いである。そのため、Nグラムの一致度が高いので、類似語句検索部105により類似語句として検索される。また、キーワード候補検索部106による図10のステップS202の文字列長に基づいた絞り込み、及び、図10のステップS204の編集距離に基づいた絞り込みによっても、キーワード候補から取り除かれない。また、キーワード候補検索部106は、図10のステップS203の相対頻度に基づいた絞り込みでも、No.8の単語の出現回数と、No.9の単語の出現回数との比(例えば、25/1)が所定の範囲内でないと判断する。それにより、誤記または表記の揺れであると判断し、キーワード候補から取り除かれないようにすることができる。なお、図4に示す単語特徴情報のNo.1の単語「acceleration」と、No.2の単語「accelaration」、及びNo.4の単語「commercial」と、No.2の単語「comercial」についても、それぞれ同様であり、キーワード候補検索部106は、誤記または表記の揺れであると判断し、キーワード候補から取り除かれないようにすることができる。   The word feature information No. 1 shown in FIG. 8 words “stationery” and The 9 word “stationery” is the only difference between the letter i and o. Therefore, since the matching degree of N-grams is high, the similar phrase search unit 105 searches for similar phrases. Further, the narrowing based on the character string length in step S202 in FIG. 10 and the narrowing based on the editing distance in step S204 in FIG. In addition, the keyword candidate search unit 106 can perform No. 3 even when narrowing down based on the relative frequency in step S203 of FIG. No. 8 appearance frequency and No. 8 It is determined that the ratio (for example, 25/1) with the number of appearances of the word 9 is not within a predetermined range. As a result, it can be determined that it is an error or a shaking of the notation, and can be prevented from being removed from the keyword candidates. Note that the word feature information No. 1 shown in FIG. 1 word “acceleration” and 2 words “accelaration” and No. 2 4 words “commercial” and no. The same applies to the second word “comercial”, and the keyword candidate search unit 106 can determine that it is a typographical error or a shake of the notation and prevent it from being removed from the keyword candidates.

<まとめ>
以上で説明したように、実施形態では、大規模な電子データから単語を収集し、単語の特徴を抽出するとき、綴りの類似度だけでなく、単語の出現回数(頻度)など、大規模データから得られる統計情報も単語特徴情報として格納しておく。そして、綴りの類似度に基づいた類似単語検索後に、単語の出現回数などの統計情報に基づいて、誤記または表記の揺れの単語と、綴りは類似しているが別の単語とを判別する。
<Summary>
As described above, in the embodiment, when collecting words from large-scale electronic data and extracting the characteristics of the words, large-scale data such as the number of appearances (frequency) of words as well as spelling similarity The statistical information obtained from is also stored as word feature information. Then, after a similar word search based on the similarity of spelling, based on statistical information such as the number of appearances of the word, an erroneously written or spelled word is distinguished from another word that is similar in spelling but different.

また、従来の、予め正解の辞書を作成しておき、入力されたキーワードに最も似ている単語を検索する方法では、例えば会社名や製品の品番等の単語の正解の辞書の場合、検索対象の会社名等が増える度に、それを辞書に反映するメンテナンスの手間が発生する。一方、上述の実施形態では、正解の辞書を作成する必要がないため、そのような手間が発生しない。   In addition, in the conventional method of creating a correct answer dictionary in advance and searching for a word most similar to the input keyword, for example, in the case of a correct answer dictionary of a word such as a company name or product part number, the search target Every time the company name increases, maintenance work is required to reflect it in the dictionary. On the other hand, in the above-described embodiment, since it is not necessary to create a correct dictionary, such trouble does not occur.

上述の実施形態では、検索対象のデータにおいて、検索対象の語句が大部分では正式に表記されており、稀に誤記または表記の揺れが存在する場合に、特に精度良く誤記または表記の揺れを検索できる。そのため、本実施形態は、特許文書の出願人名等に限らず、例えば、製品の型番、人名、地名等の、様々な種類の語句の誤記または表記の揺れを検索する装置に適用可能である。   In the above-described embodiment, in the search target data, most of the search target words are officially written, and in rare cases, there is a typographical error or a fluctuation of the typographical expression, so that the typographical error or the fluctuation of the typographical expression is particularly accurately searched. it can. Therefore, this embodiment is applicable not only to the name of the applicant of a patent document, but also to an apparatus that searches for misprints or fluctuations in notations of various types of words such as product model numbers, person names, and place names.

<変形例>
キーワード候補検索部106は、キーワードの出現回数に応じて、キーワード候補と判断する相対頻度の範囲を変更する構成としてもよい。その場合、例えば、以下のような構成としてもよい。キーワード候補検索部106は、キーワードの出現回数が所定の閾値(例えば100)以上の場合、キーワードの出現回数と、類似語の出現回数との比が、第1の範囲(例えば、20以下から1/20以上)内である場合に、当該類似語を、キーワードの誤記または表記の揺れであると判断する。キーワード候補検索部106は、キーワードの出現回数が上記所定の閾値未満の場合、キーワードの出現回数と、類似語の出現回数との比が、上記第1の範囲よりも広い第2の範囲(例えば、50以下から1/50以上)内である場合に、当該類似語を、キーワードの誤記または表記の揺れであると判断する。それにより、例えば、中小企業等で出願件数が少ないため特許文書の出願人名における出現回数が少ない等のキーワードの場合であるため、比較的検出の精度が低くなる場合に、より広範な類似語をキーワードの誤記または表記の揺れであると判断できる。それにより、検索者に、より広範な類義語をキーワードの誤記または表記の揺れの候補として提示でき、検索漏れ等を抑制できる。
<Modification>
The keyword candidate search unit 106 may be configured to change the range of relative frequencies determined as keyword candidates according to the number of appearances of the keyword. In that case, for example, the following configuration may be adopted. The keyword candidate search unit 106 determines that the ratio between the number of appearances of a keyword and the number of appearances of similar words is within a first range (for example, 20 or less to 1 when the number of appearances of the keyword is equal to or greater than a predetermined threshold (for example, 100). / 20 or more), it is determined that the similar word is a keyword error or a notation fluctuation. When the keyword appearance count is less than the predetermined threshold, the keyword candidate search unit 106 has a second range (for example, a ratio between the keyword appearance count and the similar word appearance count wider than the first range). , 50 or less to 1/50 or more), it is determined that the similar word is a keyword error or a notation fluctuation. As a result, for example, in the case of keywords such as small and medium-sized enterprises that have a small number of applications, the number of appearances in the applicant's name of patent documents is small, so if the detection accuracy is relatively low, a wider range of similar terms It can be determined that the keyword is erroneously written or the notation is shaken. Accordingly, a broader range of synonyms can be presented to the searcher as candidates for keyword error or notation fluctuation, and search omissions can be suppressed.

キーワード候補を検索する対象のデータが、特許明細書全文等の自然言語の場合は、周知の形態素解析等により、データを単語や用語などの単位に分割した後、上述した単語特徴情報の作成や、キーワード候補を検索する処理を行う構成とすればよい。   If the data to be searched for keyword candidates is a natural language such as the full text of a patent specification, the data is divided into units of words, terms, etc. by well-known morphological analysis, etc. The process for searching for keyword candidates may be performed.

検索者から入力されたキーワード自体が、誤記または表記の揺れの単語である場合、図10のステップS203にて検索されたキーワード候補のうち、出現回数が相対的に大きいものが正式な表記の単語であると推定することができる。そこで、検索制御部107は、以下の処理を行う構成としてもよい。まず、キーワードの出現回数と、当該キーワードのキーワード候補のうち最も出現回数が多い語句の出現回数との比が、所定の閾値以下(例えば1/20)であるか判断する。そして、所定の閾値以下であれば、通信部101を介して、クライアント装置2に、キーワードのキーワード候補のうち最も出現回数が多い語句を、キーワードの正式な表記として通知し、検索者に表示させる。それにより、検索者に、誤記等を指摘することができる。   When the keyword itself input by the searcher is a miswritten or written word, a keyword with a relatively large number of appearances among the keyword candidates searched in step S203 of FIG. 10 is a formal written word. It can be estimated that. Therefore, the search control unit 107 may be configured to perform the following processing. First, it is determined whether the ratio between the number of appearances of a keyword and the number of appearances of a phrase having the highest number of appearances among the keyword candidates of the keyword is equal to or less than a predetermined threshold (for example, 1/20). If it is equal to or less than the predetermined threshold, the client device 2 is notified of the most frequently appearing phrase among the keyword candidates of the keyword as a formal expression of the keyword via the communication unit 101 and displayed to the searcher. . Thereby, it is possible to point out an error or the like to the searcher.

続いて、図11を参照して、検索者から入力されたキーワード自体が、誤記または表記の揺れの単語である場合に、正式な表記の単語を推定する処理の概念を説明する。図11は、入力された誤記等から、正式な表記を推定する処理の概念図である。図11では、各文字列が似ているほど距離が小さい、各文字列の類似度の距離を表す平面上で、各文字列の出現回数を縦軸としたイメージを表している。ここで、検索者から入力されたキーワードが「AICHO」の場合に、類似語句検索部105やキーワード候補検索部106で検索したキーワード候補のうち、最も出現回数が多い語句である「AICOH」を、正式な表記と推定し、検索者に表示(サジェスト)する。   Next, with reference to FIG. 11, the concept of processing for estimating a word with a formal notation when the keyword itself input by the searcher is a miswritten or written word will be described. FIG. 11 is a conceptual diagram of processing for estimating a formal notation from an input error or the like. FIG. 11 shows an image with the vertical axis representing the number of appearances of each character string on a plane representing the distance of the similarity of each character string, the distance being smaller as each character string is more similar. Here, when the keyword input by the searcher is “AICHO”, among the keyword candidates searched by the similar phrase search unit 105 and the keyword candidate search unit 106, “AICOH” which is the phrase having the highest appearance frequency is Presumed to be an official notation and displayed (suggested) to the searcher.

検索制御部107は、検索者からのキーワード候補の検索結果に対するフィードバックの統計情報に基づいて、キーワード候補を選択する構成としてもよい。その場合、例えば、以下のような構成としてもよい。検索制御部107は、図5のステップS102により受信したキーワード、及び図5のステップS104で送信する検索用のキーワードの候補に対応付けて、図5のステップS107により受信した、検索者に選択された1以上のキーワード群を格納しておく。検索制御部107は、図5のステップS104にて、検索者に例えば所定回数以上連続して選択されなかった検索用のキーワードの候補を取り除いて送信する。   The search control unit 107 may be configured to select keyword candidates based on feedback statistical information on search results of keyword candidates from the searcher. In that case, for example, the following configuration may be adopted. The search control unit 107 is selected by the searcher received in step S107 of FIG. 5 in association with the keyword received in step S102 of FIG. 5 and the search keyword candidate transmitted in step S104 of FIG. One or more keyword groups are stored. In step S104 of FIG. 5, the search control unit 107 removes the search keyword candidates that have not been selected continuously for a predetermined number of times, for example, and transmits them to the searcher.

情報検索装置1は、例えば1以上の情報処理装置(コンピュータ)で構成される情報処理システムによるクラウドコンピューティングにより実現されていてもよい。例えば、索引作成部103、単語特徴抽出部104、全文検索部108等を、別体のコンピュータにより実現してもよい。また、情報検索装置1と、対象情報DBとを一体の装置として構成してもよい。情報検索装置1とクライアント装置2とを一体の装置として構成してもよい。   The information search device 1 may be realized by cloud computing using an information processing system including one or more information processing devices (computers), for example. For example, the index creation unit 103, the word feature extraction unit 104, the full-text search unit 108, and the like may be realized by separate computers. Further, the information search device 1 and the target information DB may be configured as an integrated device. The information search device 1 and the client device 2 may be configured as an integrated device.

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。また、上述した各実施形態の一部又は全部を組み合わせることも可能である。   Although the preferred embodiment of the present invention has been described in detail above, the present invention is not limited to the specific embodiment, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed. Moreover, it is also possible to combine a part or all of each embodiment mentioned above.

1 情報検索装置(「情報処理装置」の一例)
101 通信部
102 記憶部
103 索引作成部
104 単語特徴抽出部
105 類似語句検索部(「第一の検索部」の一例)
106 キーワード候補検索部(「第二の検索部」の一例)
107 検索制御部(「キーワード取得部」の一例)
108 全文検索部
2 クライアント装置
200 対象情報DB
1 Information retrieval device (an example of "information processing device")
101 communication unit 102 storage unit 103 index creation unit 104 word feature extraction unit 105 similar phrase search unit (an example of “first search unit”)
106 Keyword candidate search unit (an example of “second search unit”)
107 Search control unit (an example of “keyword acquisition unit”)
108 Full-text search unit 2 Client device 200 Target information DB

特開2005−011078号公報JP 2005-011078 A

Claims (8)

キーワードを取得するキーワード取得部と、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索する第一の検索部と、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索する第二の検索部と、
を備える情報処理装置。
A keyword acquisition unit for acquiring keywords;
A first search unit for searching for similar words having similar character strings to the keyword from data to be searched;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. A second search unit;
An information processing apparatus comprising:
前記第二の検索部は、前記キーワードの出現回数と、前記類似語の出現回数との比が、所定の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断する、
請求項1に記載の情報処理装置。
When the ratio between the number of appearances of the keyword and the number of appearances of the similar word is within a predetermined range, the second search unit is an error in writing the keyword or shaking the notation of the keyword. To judge,
The information processing apparatus according to claim 1.
前記第二の検索部は、
前記キーワードの出現回数が所定の閾値以上の場合、前記キーワードの出現回数と、前記類似語の出現回数との比が、第1の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断し、
前記キーワードの出現回数が前記所定の閾値未満の場合、前記キーワードの出現回数と、前記類似語の出現回数との比が、前記第1の範囲よりも広い第2の範囲内である場合に、当該類似語を、前記キーワードの誤記または表記の揺れであると判断する、
請求項1または2に記載の情報処理装置。
The second search unit is
If the number of appearances of the keyword is equal to or greater than a predetermined threshold, if the ratio between the number of appearances of the keyword and the number of appearances of the similar word is within the first range, the similar word is mistakenly written for the keyword. Or judge that it is shaking of the notation,
When the number of appearances of the keyword is less than the predetermined threshold, the ratio between the number of appearances of the keyword and the number of appearances of the similar word is within a second range wider than the first range, Determining that the similar word is a typographical error or a shaking of the notation of the keyword,
The information processing apparatus according to claim 1 or 2.
前記第二の検索部は、さらに、先頭の文字に所定の重み付けを付加した、前記キーワードと前記類似語との間の編集距離に基づいて、前記キーワードの誤記または表記の揺れである単語を検索する、
請求項1乃至3のいずれか一項に記載の情報処理装置。
The second search unit further searches for a word that is a typographical error or a notation of the keyword based on an edit distance between the keyword and the similar word with a predetermined weight added to the first character. To
The information processing apparatus according to any one of claims 1 to 3.
前記第二の検索部は、さらに、前記キーワードに含まれる各単語と、前記類似語に含まれる各単語の編集距離の一致率に基づいて、前記キーワードの誤記または表記の揺れである単語を検索する、
請求項1乃至4のいずれか一項に記載の情報処理装置。
The second search unit further searches for a word that is a typographical error or a notation of the keyword based on a matching rate of each word included in the keyword and an edit distance of each word included in the similar word. To
The information processing apparatus according to any one of claims 1 to 4.
1以上の情報処理装置を含む情報処理システムであって、
キーワードを取得するキーワード取得部と、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索する第一の検索部と、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索する第二の検索部と、
を備える情報処理システム。
An information processing system including one or more information processing devices,
A keyword acquisition unit for acquiring keywords;
A first search unit for searching for similar words having similar character strings to the keyword from data to be searched;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. A second search unit;
An information processing system comprising:
情報処理装置が、
キーワードを取得するステップと、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索するステップと、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索するステップと、
を実行する、情報検索方法。
Information processing device
Obtaining a keyword;
Searching for similar words in which the keyword and the character string are similar from search target data;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. Steps,
Execute the information retrieval method.
コンピュータに、
キーワードを取得するステップと、
前記キーワードと文字列が類似している類似語を、検索対象のデータの中から検索するステップと、
前記検索対象のデータにおける、前記キーワードの出現回数と、前記類似語の出現回数とに基づいて、前記類似語の中から、前記キーワードの誤記または表記の揺れと推定される単語の候補を検索するステップと、
を実行させるプログラム。
On the computer,
Obtaining a keyword;
Searching for similar words in which the keyword and the character string are similar from search target data;
Based on the number of appearances of the keyword and the number of appearances of the similar word in the search target data, search for candidate words that are presumed to be erroneously written or fluctuated in the keyword from the similar words. Steps,
A program that executes
JP2015250334A 2015-12-22 2015-12-22 Information processing device, information processing system, information retrieval method, and program Pending JP2017117109A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015250334A JP2017117109A (en) 2015-12-22 2015-12-22 Information processing device, information processing system, information retrieval method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015250334A JP2017117109A (en) 2015-12-22 2015-12-22 Information processing device, information processing system, information retrieval method, and program

Publications (1)

Publication Number Publication Date
JP2017117109A true JP2017117109A (en) 2017-06-29

Family

ID=59234259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015250334A Pending JP2017117109A (en) 2015-12-22 2015-12-22 Information processing device, information processing system, information retrieval method, and program

Country Status (1)

Country Link
JP (1) JP2017117109A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077240A (en) * 2018-11-08 2020-05-21 本田技研工業株式会社 Supplier selection system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077240A (en) * 2018-11-08 2020-05-21 本田技研工業株式会社 Supplier selection system

Similar Documents

Publication Publication Date Title
JP5761833B2 (en) Dictionary candidates for partial user input
JP4301515B2 (en) Text display method, information processing apparatus, information processing system, and program
JP5241828B2 (en) Dictionary word and idiom determination
US20090043741A1 (en) Autocompletion and Automatic Input Method Correction for Partially Entered Search Query
EP3345118B1 (en) Identifying query patterns and associated aggregate statistics among search queries
US8849653B2 (en) Updating dictionary during application installation
US20120297294A1 (en) Network search for writing assistance
US10459957B2 (en) User-guided term suggestions
JP2005267638A (en) System and method for improved spell checking
US20140324416A1 (en) Method of automated analysis of text documents
JP2014517428A (en) Detect the source language of search queries
US9772991B2 (en) Text extraction
US8583415B2 (en) Phonetic search using normalized string
JP4631795B2 (en) Information search support system, information search support method, and information search support program
EP3356952B1 (en) Method and system for ideogram character analysis
US20190303437A1 (en) Status reporting with natural language processing risk assessment
KR101565367B1 (en) Method for calculating plagiarism rate of documents by number normalization
WO2015075920A1 (en) Input assistance device, input assistance method and recording medium
JP2017117109A (en) Information processing device, information processing system, information retrieval method, and program
US20230267274A1 (en) Mapping entities in unstructured text documents via entity correction and entity resolution
JP6549441B2 (en) INPUT SUPPORT DEVICE, PROGRAM, AND INPUT SUPPORT METHOD
EP4328764A1 (en) Artificial intelligence-based system and method for improving speed and quality of work on literature reviews
JP2023003467A (en) Support device, support system, support method and program
JP2023039822A (en) Information processing device, information processing method, and information processing program
WO2017126057A1 (en) Information search method