JP2011141681A - Similar word search server and method - Google Patents

Similar word search server and method Download PDF

Info

Publication number
JP2011141681A
JP2011141681A JP2010001455A JP2010001455A JP2011141681A JP 2011141681 A JP2011141681 A JP 2011141681A JP 2010001455 A JP2010001455 A JP 2010001455A JP 2010001455 A JP2010001455 A JP 2010001455A JP 2011141681 A JP2011141681 A JP 2011141681A
Authority
JP
Japan
Prior art keywords
search
candidate words
character
candidate
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010001455A
Other languages
Japanese (ja)
Other versions
JP5230664B2 (en
Inventor
Yoshio Ichinohe
美穂 一戸
Kentaro Kazama
健太郎 風間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010001455A priority Critical patent/JP5230664B2/en
Publication of JP2011141681A publication Critical patent/JP2011141681A/en
Application granted granted Critical
Publication of JP5230664B2 publication Critical patent/JP5230664B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a similar word search server and method for searching a similar word without omission by more increasing the width of the enlargement of a search range. <P>SOLUTION: A similar word search server 1 includes: a reading-down search means 12 for performing the search of a candidate word based on the comparison of key input information received by using a dictionary DB21 in response to the reception of the key input information of a character string designated as a search query; a first result output means 13 for outputting a plurality of first candidate words as the result of performance by the reading-down search means 12; a character base search means 14 for performing, with respect to each of the plurality of first candidate words output by the first result output means 13, the search of the candidate words based on the comparison of the character information of characters corresponding to the first candidate words by using the dictionary DB21; and a second result output means 15 for outputting a plurality of second candidate words as the performance result by the character base search means 14. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、類似語検索サーバ及び方法に関する。   The present invention relates to a similar word search server and method.

従来、文書データベースから検索条件に合致する文書を検索する文書検索装置が開示されている(例えば、特許文献1)。特許文献1に記載の文書検索装置は、クエリに含まれる単語のみならず、その類義語や関連語も検索対象にする。その方法として、文書検索装置は、クエリを形態素解析して単語を抽出し、共起情報ファイルの共起情報と照合して共起性の高い単語の組を特定し、単語展開結果情報に基づいて類義語又は関連語を含むように拡張する。   2. Description of the Related Art Conventionally, a document search apparatus that searches a document database that matches a search condition has been disclosed (for example, Patent Document 1). The document search apparatus described in Patent Literature 1 searches not only words included in a query but also synonyms and related words. As a method, the document search device extracts a word by morphologically analyzing a query, identifies a set of words having high co-occurrence by collating with co-occurrence information in the co-occurrence information file, and based on the word expansion result information Expand to include synonyms or related terms.

特開2008−203997号公報JP 2008-203997 A

特許文献1に記載の拡張する類義語及び関連語は、過去の処理対象に基づくものであるので普及度の低い語に関する情報に乏しく、検索範囲の拡大の幅に限界が生じた。   The expanding synonyms and related words described in Patent Document 1 are based on past processing objects, and therefore lack information on words with low popularity, and the range of search range expansion is limited.

本発明は、検索範囲の拡大の幅をより大きくして洩れなく類似語を検索する類似語検索サーバ及び方法を提供することを目的とする。   An object of the present invention is to provide a similar word search server and method for searching for similar words without omission by increasing the range of expansion of the search range.

本発明者らは、検索クエリを読み下すことで候補となる検索範囲の幅を大きくして、その候補の各々について検索することを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。   The inventors of the present invention have found that the search range as candidates is widened by reading down the search query and that the search is performed for each of the candidates, and the present invention has been completed. Specifically, the present invention provides the following.

(1) 検索クエリとして指定された文字列のキー入力情報を受信したことに応じて、辞書DBを用いて受信した前記キー入力情報の比較に基づく候補語の検索を実行する読み下し検索手段と、
前記読み下し検索手段による実行結果として複数の第1の候補語を出力する第1結果出力手段と、
前記第1結果出力手段により出力された前記複数の第1の候補語の各々に対して前記辞書DBを用いて前記第1の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行する文字ベース検索手段と、
前記文字ベース検索手段による実行結果として複数の第2の候補語を出力する第2結果出力手段と、
を備える、
類似語検索サーバ。
(1) A read-out search means for executing a search for a candidate word based on a comparison of the key input information received using the dictionary DB in response to receiving key input information of a character string designated as a search query;
First result output means for outputting a plurality of first candidate words as an execution result by the reading-down search means;
Retrieval of candidate words based on comparison of character information of characters corresponding to the first candidate word using the dictionary DB for each of the plurality of first candidate words output by the first result output means A character-based search means for executing
Second result output means for outputting a plurality of second candidate words as execution results by the character-based search means;
Comprising
Similar word search server.

本発明のこのような構成によれば、検索クエリとして指定された文字列のキー入力情報の比較に基づく候補語の検索を実行し、その実行結果として出力された複数の第1の候補語の各々に対して、今度は第1の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行する。よって、類似語検索サーバは、例えば、かな漢字変換のミスや漢字が不明で読みが入力された場合に、可能な読み下しパターンをカバーした上で、さらに文字ベースの類似語を含めて検索するので、漢字変換のミスがあった場合等においても、洩れを少なくして類似語候補を抽出できる。   According to such a configuration of the present invention, a candidate word search is performed based on a comparison of key input information of a character string specified as a search query, and a plurality of first candidate words output as the execution result are searched. For each of these, a candidate word search is performed based on a comparison of character information of characters corresponding to the first candidate word. Therefore, for example, when the Kana-Kanji conversion error or Kanji character is unknown and a reading is input, the similar word search server covers possible reading patterns and further searches including a character-based similar word. Even when there is a mistake in kanji conversion, similar word candidates can be extracted with less omission.

(2) 前記読み下し検索手段は、前記候補語の検索の精度を数値化した類似度を算出し、
前記第1結果出力手段は、前記類似度が所定の基準を満たす前記複数の第1の候補語を出力する、
(1)に記載の類似語検索サーバ。
(2) The read-down search means calculates a similarity obtained by quantifying the search accuracy of the candidate word,
The first result output means outputs the plurality of first candidate words whose similarity satisfies a predetermined criterion.
The similar word search server according to (1).

本発明のこのような構成によれば、候補語の検索の精度を数値化した類似度を算出して、その類似度が所定の基準を満たす場合に、基準を満たした複数の第1の候補語を出力する。よって、類似語検索サーバは、検索範囲の拡大の幅を調整しつつ、候補語の検索を実行できる。   According to such a configuration of the present invention, when a similarity is obtained by quantifying the accuracy of search for candidate words, and the similarity satisfies a predetermined criterion, a plurality of first candidates that satisfy the criterion Output words. Thus, the similar word search server can search for candidate words while adjusting the expansion range of the search range.

(3) 前記第2結果出力手段は、前記読み下し検索手段により算出した前記類似度の度合いが高いものから順番に前記文字ベース検索手段による前記複数の第2の候補語を出力する、
(2)に記載の類似語検索サーバ。
(3) The second result output means outputs the plurality of second candidate words by the character-based search means in descending order of the degree of similarity calculated by the read-down search means.
The similar word search server according to (2).

本発明のこのような構成によれば、類似度の度合いが高いものから順番に文字ベース検索手段によって第2の候補語を出力する。よって、類似語検索サーバは、類似度によってより精度の高いものから順番に候補語を出力できる。   According to such a configuration of the present invention, the second candidate word is output by the character-based search means in order from the highest degree of similarity. Therefore, the similar word search server can output candidate words in descending order of accuracy according to the similarity.

(4) 検索クエリとして指定された文字列のキー入力情報を受信するステップと、
辞書DBを用いて受信した前記キー入力情報の比較に基づく候補語の検索を実行するステップと、
前記キー入力情報の比較に基づく候補語の検索による実行結果として複数の第1の候補語を出力するステップと、
出力された前記複数の第1の候補語の各々に対して前記辞書DBを用いて前記第1の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行するステップと、
前記文字情報の比較に基づく候補語の検索による実行結果として複数の第2の候補語を出力するステップと、
を含む、
類似語検索方法。
(4) receiving key input information of a character string designated as a search query;
Performing a search for candidate words based on a comparison of the key input information received using a dictionary DB;
Outputting a plurality of first candidate words as an execution result by searching for candidate words based on the comparison of the key input information;
Performing a search for candidate words based on a comparison of character information of characters corresponding to the first candidate words using the dictionary DB for each of the plurality of output first candidate words;
Outputting a plurality of second candidate words as an execution result by searching for candidate words based on the comparison of the character information;
including,
Similar word search method.

本発明によれば、検索クエリとして指定された文字列のキー入力情報の比較に基づく候補語の検索を実行し、その実行結果として出力された複数の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行するので、検索範囲の拡大の幅をより大きくして洩れを少なくした類似語候補を抽出できる。   According to the present invention, a candidate word search is performed based on a comparison of key input information of a character string specified as a search query, and character information of characters corresponding to a plurality of candidate words output as the execution result is compared. Since the search for candidate words based on is performed, it is possible to extract similar word candidates with a wider search range and less leakage.

本実施形態に係る類似語検索システムの全体構成及び類似語検索サーバの機能構成を示す図である。It is a figure which shows the whole structure of the similar word search system which concerns on this embodiment, and the functional structure of a similar word search server. 本実施形態に係る類似語検索サーバのメイン処理のフローチャートである。It is a flowchart of the main process of the similar word search server which concerns on this embodiment. 本実施形態に係るキー入力情報のバリエーションを示す図である。It is a figure which shows the variation of the key input information which concerns on this embodiment. 本実施形態に係る候補語の検索の具体例を示す図である。It is a figure which shows the specific example of the search of the candidate word which concerns on this embodiment.

以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。   DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.

(実施形態)
[類似語検索システム100の全体構成及び類似語検索サーバ1の機能構成]
図1は、本実施形態に係る類似語検索システム100の全体構成及び類似語検索サーバ1の機能構成を示す図である。
(Embodiment)
[Overall Configuration of Similar Word Search System 100 and Functional Configuration of Similar Word Search Server 1]
FIG. 1 is a diagram showing the overall configuration of the similar word search system 100 and the functional configuration of the similar word search server 1 according to the present embodiment.

類似語検索システム100は、類似語検索サーバ1と、ユーザ端末3と、通信ネットワーク9とにより構成される。   The similar word search system 100 includes a similar word search server 1, a user terminal 3, and a communication network 9.

類似語検索サーバ1は、ユーザ端末3からの候補語の検索要求に対応して、類似語を検索してユーザ端末3に候補語を送信するサーバである。類似語検索サーバ1は、制御部10と、記憶部20とを備える。   The similar word search server 1 is a server that searches for similar words and transmits the candidate words to the user terminal 3 in response to a search request for candidate words from the user terminal 3. The similar word search server 1 includes a control unit 10 and a storage unit 20.

制御部10は、検索要求受信手段11と、読み下し検索手段12と、第1結果出力手段13と、文字ベース検索手段14と、第2結果出力手段15とを備える。   The control unit 10 includes a search request receiving unit 11, a reading-out search unit 12, a first result output unit 13, a character base search unit 14, and a second result output unit 15.

検索要求受信手段11は、ユーザ端末3から送信された検索クエリとして指定された文字列のキー入力情報を受信する制御部である。キー入力情報とは、ユーザがユーザ端末3にてキーボード入力を行った際に入力したキーの情報そのものをいう。ユーザ端末3において、ユーザがWebブラウザに表示された検索窓にローマ字入力で、例えば、「与謝野」を「yosano」と入力して「与謝野」に漢字変換をした場合には、検索要求受信手段11は、「yosano」の入力を受信する。   The search request receiving unit 11 is a control unit that receives key input information of a character string designated as a search query transmitted from the user terminal 3. The key input information refers to key information itself that is input when the user performs keyboard input on the user terminal 3. In the user terminal 3, when the user inputs Roman characters in the search window displayed on the Web browser, for example, when "yosano" is entered as "yosano" and kanji conversion is made into "yosano", the search request receiving means 11 Receives the input of “yosano”.

読み下し検索手段12は、読みに基づいて辞書DB21(DB:データベース)を用いて類似語を検索する制御部である。具体的には、読み下し検索手段12は、受信したキー入力情報の比較に基づいて類似語を検索する。ユーザ端末3にて「与謝野」を「yosano」と入力した場合には、読み下し検索手段12は、ユーザ端末3より受信した「yosano」から類似語を検索する。読み方が合っているので、読み下し検索手段12は、適切に検索できる。他方、ユーザ端末3にてユーザが「与謝野」を「yosyano」と入力した場合には、読み方が間違っているので、読み下し検索手段12は、ユーザ端末3より受信した「yosyano」から適切に「与謝野」の類似語を検索できない場合がある。   The reading-down search unit 12 is a control unit that searches for similar words using a dictionary DB 21 (DB: database) based on readings. Specifically, the reading-down search unit 12 searches for similar words based on the comparison of the received key input information. When “yosano” is input as “yosano” at the user terminal 3, the read-down search unit 12 searches for similar words from “yosano” received from the user terminal 3. Since the reading method is appropriate, the reading-down search means 12 can search appropriately. On the other hand, if the user inputs “yosano” to “yosano” at the user terminal 3, the reading is incorrect, and the search means 12 reads the “yosano” appropriately from “yosano” received from the user terminal 3. ”Cannot be searched.

第1結果出力手段13は、キー入力情報の比較に基づく候補語の検索を実行する制御部である。そして、第1結果出力手段13は、読み下し検索要求の候補語(第1の候補語)を出力する制御部である。第1結果出力手段13は、候補語として結果1から結果nまでのn個(nは整数)の結果を出力する。候補語は、読み方による読み下し検索の結果でありローマ字やかな入力による検索であるので、ローマ字やかなの文字列内のパターンにマッチしない語はほぼ存在せず、ゼロマッチになることはほぼない。   The first result output means 13 is a control unit that executes a search for candidate words based on a comparison of key input information. The first result output means 13 is a control unit that reads out and outputs a search request candidate word (first candidate word). The first result output means 13 outputs n results (n is an integer) from result 1 to result n as candidate words. Since the candidate word is a result of a reading-down search by reading and is a search by romaji input, there is almost no word that does not match the pattern in the romaji character string, and there is almost no zero match.

また、第1結果出力手段13は、入力元の複数の候補語の各々に基づいて、候補語の検索の精度を数値化した類似度を算出する。第1結果出力手段13は、例えば、算出された類似度が所定の基準(例えば、1を適合、0を不適合として、0.5以上)を満たす候補語を出力する。   Further, the first result output means 13 calculates a similarity obtained by quantifying the accuracy of the search for the candidate word based on each of the plurality of input source candidate words. For example, the first result output unit 13 outputs candidate words whose calculated similarity satisfies a predetermined criterion (for example, 0.5 or more, where 1 is conforming and 0 is not conforming).

文字ベース検索手段14は、漢字、ひらがな等の候補語に対応する文字の文字情報の比較に基づいて候補語を検索する制御部である。文字ベース検索手段14は、第1結果出力手段13による候補語として出力された複数の候補語である結果1から結果nまでの各々に対して、辞書DB21を用いて文字情報の比較に基づく候補語を検索する。   The character-based search means 14 is a control unit that searches for candidate words based on a comparison of character information of characters corresponding to candidate words such as kanji and hiragana. The character-based search unit 14 uses the dictionary DB 21 for each of the results 1 to n, which are a plurality of candidate words output as candidate words by the first result output unit 13, and candidates based on comparison of character information Search for a word.

第2結果出力手段15は、文字ベース検索による候補語(第2の候補語)を出力する制御部である。第2結果出力手段15は、結果1を入力にした候補語である結果11から結果1a(aは整数)、・・・、結果nを入力にした候補語である結果n1から結果nm(mは整数)までの複数個の結果を出力する。第2結果出力手段15は、第1結果出力手段13により算出された類似度が降順になるように、候補語を出力する。   The second result output means 15 is a control unit that outputs a candidate word (second candidate word) by character-based search. The second result output means 15 obtains the result 1a (a is an integer) from the result 11 as a candidate word with the result 1 as an input,... Output multiple results up to (integer). The second result output unit 15 outputs the candidate words so that the similarity calculated by the first result output unit 13 is in descending order.

記憶部20は、辞書DB21を備える。辞書DB21は、類似語の辞書である類語辞典を含む各種の辞書が格納されたDBである。各種の辞書は、その他には、例えば、国語辞典、新語辞典、英和辞典、和英辞典や、百科事典等がある。   The storage unit 20 includes a dictionary DB 21. The dictionary DB 21 is a DB that stores various dictionaries including a thesaurus that is a dictionary of similar words. Other various dictionaries include, for example, a national language dictionary, a new word dictionary, an English-Japanese dictionary, a Japanese-English dictionary, and an encyclopedia.

本実施形態の類似語検索サーバ1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、類似語検索サーバ1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The hardware of the similar word search server 1 of this embodiment may be configured by a general computer. For example, a general computer includes a central processing unit (CPU) as the control unit 10 and a memory (RAM, ROM), a hard disk (HDD), and an optical disk (CD, DVD, etc.) as a storage unit 20 in a network. As a communication device, various wired and wireless LAN devices, as a display device, for example, various displays such as a liquid crystal display and a plasma display, and as an input device, for example, a keyboard and a pointing device (mouse, tracking ball, etc.) are appropriately provided. These are connected by a bus line. In such a general computer, the CPU controls the similar word search server 1 in an integrated manner, reads and executes various programs as appropriate, and cooperates with the hardware described above, thereby providing various functions according to the present invention. Is realized.

ユーザ端末3は、例えば、パーソナルコンピュータ(PC)や、携帯電話機等の携帯端末である。ユーザ端末3は、通信機能を有し、文字を入力できWebページが表示可能な端末であれば、どのような装置でもよい。   The user terminal 3 is, for example, a personal computer (PC) or a mobile terminal such as a mobile phone. The user terminal 3 may be any device as long as it has a communication function and can input characters and display a web page.

通信ネットワーク9は、類似語検索サーバ1と、ユーザ端末3との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。   The communication network 9 is a communication line such as the Internet for performing communication between the similar word search server 1 and the user terminal 3. The communication network 9 may be wired or part or all of it may be wireless.

[類似語検索サーバ1の処理]
次に、類似語検索サーバ1での処理について説明する。図2は、本実施形態に係る類似語検索サーバ1のメイン処理のフローチャートである。図3は、本実施形態に係るキー入力情報のバリエーションを示す図である。図4は、本実施形態に係る候補語の検索の具体例を示す図である。
[Process of Similar Word Search Server 1]
Next, processing in the similar word search server 1 will be described. FIG. 2 is a flowchart of the main process of the similar word search server 1 according to the present embodiment. FIG. 3 is a diagram showing variations of key input information according to the present embodiment. FIG. 4 is a diagram showing a specific example of candidate word search according to the present embodiment.

図2のS1:制御部10(検索要求受信手段11)は、ユーザ端末3から検索要求を受信する。検索要求は、検索クエリとして指定された文字列のキー入力情報を含む。   S <b> 1 in FIG. 2: the control unit 10 (search request receiving means 11) receives a search request from the user terminal 3. The search request includes key input information of a character string specified as a search query.

ここで、キー入力情報のバリエーションを示す。図3は、「直江兼続」を入力しようとした場合のキー入力のバリエーションであり、図3(1)は、ローマ字入力のバリエーションを、図3(2)は、かな入力のバリエーションを示す。図3(1)では、一例として、2パターンの正しい入力と1つの誤った入力とを示している。日本語の「つ」は、ローマ字入力では「tsu」と「tu」とのいずれでもよい。誤った入力の例では、キーボードの入力順序を誤った場合を表している。図3(2)では、一例として1つの正しい入力と1つの誤った入力とを示す。誤った入力の例では、かなの「か」を、誤って「は」と入力した場合を表している。   Here, variations of key input information are shown. FIG. 3 shows a variation of key input when trying to input “Naoe Kanetsugu”, FIG. 3 (1) shows a variation of Roman input, and FIG. 3 (2) shows a variation of Kana input. FIG. 3A shows two patterns of correct input and one incorrect input as an example. “Tsu” in Japanese may be either “tsu” or “tu” for Roman input. The example of incorrect input represents a case where the keyboard input order is incorrect. FIG. 3B shows one correct input and one incorrect input as an example. In the example of an incorrect input, the case where “ka” is input as “ha” by mistake is shown.

このキー入力情報のバリエーションは、例えば、ユーザが誤って「naokeanetugu」と入力した場合に、これは、「naoekanetugu」又は「naoekanetsugu」の入力と間違えたのであろうと制御部10が判断して、例えば、「naoekanetugu」に関しての処理をも行うために用意されている。   For example, when the user erroneously inputs “naokeanetugu”, the control unit 10 determines that the key input information may be mistaken for “naoekanetugu” or “naoekanetsugu”. , “Naoekanetugu” is also prepared for processing.

図2に戻り、S2:制御部10(読み下し検索手段12)は、辞書DB21を用いてキー入力情報の比較に基づく候補語の検索を行う。キー入力情報の比較に基づく候補語の検索とは、キーボードのアルファベットやかなの配列のバリエーションによる候補語をいう。図4は、ユーザが検索クエリとして「直江かねつぐ」と入力した場合を示す。この場合、制御部10は、図4(a)に示すように、ローマ字入力された「naoekanetugu」を用いて読み下し検索を実行する。読み下し検索として、制御部10は、例えば、ローマ字入力したものを、かなに変換しただけである候補語「なおえかねつぐ」を出力してもよい。   Returning to FIG. 2, the control unit 10 (read-down search unit 12) uses the dictionary DB 21 to search for candidate words based on the comparison of key input information. Searching for candidate words based on a comparison of key input information refers to candidate words based on variations in the keyboard alphabet. FIG. 4 shows a case where the user inputs “Naoe Kanetsugu” as a search query. In this case, as illustrated in FIG. 4A, the control unit 10 performs a search by reading down using “naoekanetugu” input in Roman characters. As a read-down search, the control unit 10 may output a candidate word “Naoekanetsugu” that is, for example, just converted from a Roman character input into kana.

図2に戻り、S3:制御部10(読み下し検索手段12)は、S2での検索結果にひらがな文字又はカタカナを含むか否かを判断する。ひらがな文字又はカタカナ文字を含む場合(S3:YES)には、制御部10は、処理をS4に移す。他方、ひらがな文字又はカタカナ文字を含まない場合(S3:NO)には、制御部10は、処理をS5に移す。   Returning to FIG. 2, S3: The control unit 10 (read-down search means 12) determines whether or not the search result in S2 includes hiragana characters or katakana. When the hiragana character or the katakana character is included (S3: YES), the control unit 10 moves the process to S4. On the other hand, when the hiragana character or the katakana character is not included (S3: NO), the control unit 10 moves the process to S5.

S4:制御部10は、ひらがな文字又はカタカナ文字を、漢字に変換する。   S4: The control unit 10 converts hiragana characters or katakana characters into kanji.

S5:制御部10(第1結果出力手段13)は、キー入力情報の比較に基づく候補語の検索の結果を出力する。ここで、制御部10は、漢字に変換する前のひらがな文字又はカタカナ文字と、漢字変換後の文字との両方を検索結果として出力する。また、制御部10は、検索結果として、類似度の度合いが0.5以上の上位5件を候補語として出力する。図4(b)は、読み下し候補語として出現した文字列を、ひらがな文字を先に、漢字変換されたものをその後に、それぞれスコアの降順に表示したものである。このように、類似度の度合いにより順位付けることで、類似語検索サーバ1は、キー入力情報に正確な候補語から順番に、以降の処理を開始することができる。   S5: The control unit 10 (first result output means 13) outputs a search result of candidate words based on the comparison of the key input information. Here, the control unit 10 outputs both the hiragana or katakana characters before conversion into kanji and the characters after conversion into kanji as search results. In addition, the control unit 10 outputs, as search results, the top five items having a degree of similarity of 0.5 or more as candidate words. FIG. 4B shows a character string that appears as a candidate word when read down, and a hiragana character first, a kanji converted character string, and then a descending score. Thus, by ranking according to the degree of similarity, the similar word search server 1 can start the subsequent processing in order from candidate words accurate to the key input information.

図2に戻り、S6:制御部10(文字ベース検索手段14)は、辞書DB21を用いて出力された候補語の各々に対応する文字の文字情報の比較又は入力された文字情報の比較に基づいて候補語の検索を行う。図4(c)は、読み下し検索による候補語として出力された「直江兼続」、「近衛兼嗣」、・・・の文字情報を用いて文字ベース検索を実行した結果を示す。   Returning to FIG. 2, S <b> 6: The control unit 10 (character-based search unit 14) is based on comparison of character information of characters corresponding to each of candidate words output using the dictionary DB 21 or comparison of input character information. To search for candidate words. FIG. 4C shows a result of performing a character base search using character information of “Kaneki Naoe”, “Kanego Konoe”,.

図2に戻り、S7:制御部10(第2結果出力手段15)は、候補語の検索の結果として、キー入力情報の比較に基づく候補語の結果の類似度の度合いが高かったものから順番に候補語を出力した結果ページを生成して、ユーザ端末3に対して送信する。図4に示す例では、最初に、類似度が「1」の「なおえかねつぐ」に関する候補語を出力し、次に、類似度が同じく「1」の「直江兼続」に関する候補語を出力する。その後、制御部10は、本処理を終了する。   Returning to FIG. 2, S7: The control unit 10 (second result output unit 15) determines the candidate word search results in descending order of the degree of similarity of the candidate word results based on the comparison of the key input information. A result page that outputs candidate words is generated and transmitted to the user terminal 3. In the example shown in FIG. 4, first, candidate words related to “Naoe Kanetsugu” having a similarity of “1” are output, and then candidate words related to “Naoe Kanetsu” having a similarity of “1”. Output. Then, the control part 10 complete | finishes this process.

図4の例では、「naoekanetugu」のキー入力情報をもつ検索クエリ「直江かねつぐ」に基づいて、読み下し検索手段12が「naoekanetugu」のキー入力情報を有する「近衛兼嗣」を出力して、さらに、文字ベース検索手段14が「近衛文麿」を出力している。このように、類似語検索サーバ1は、読み下し検索を行った複数の候補語を入力として、さらに文字ベース検索を行うことで、読み下し検索や文字ベース検索を単独で行った場合には得ることが困難な「近衛文麿」を出力できる。   In the example of FIG. 4, based on the search query “Naoe Kanetsugu” having key input information of “naoekanetugu”, the read-out search means 12 outputs “Konoe Kanetsugu” having key input information of “naoekanetugu”, Furthermore, the character-based search means 14 outputs “Konbe Bungei”. As described above, the similar word search server 1 can be obtained when a plurality of candidate words that have been read down are input and a character-based search is further performed to perform a read-down search or a character-based search alone. Can output difficult “Konoe Bungei”.

このように、類似語検索サーバ1は、検索クエリとして指定された文字列のローマ字入力のキー入力情報の比較に基づく読み下し検索を実行し、その実行結果として出力された複数の候補語に対して、今度は候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行する。よって、類似語検索サーバ1は、検索クエリに基づいて候補となる検索範囲の幅を大きくして、その候補の各々について検索することができる。   As described above, the similar word search server 1 executes a read-out search based on a comparison of key input information of a Roman character input of a character string specified as a search query, and a plurality of candidate words output as the execution result. This time, the candidate word search is executed based on the comparison of the character information of the characters corresponding to the candidate word. Therefore, the similar word search server 1 can search for each of the candidates by increasing the width of the search range as candidates based on the search query.

そして、例えば、かな漢字変換のミスや漢字が不明で読みが入力された場合に、類似語検索サーバ1は、可能な読み下しパターンをカバーした上で、さらに文字ベースの類似語を含めて検索するので、漢字変換ミスがあった場合等においても、洩れの少ない類似語候補を抽出できる。   And, for example, when a kana-kanji conversion error or kanji is unknown and a reading is input, the similar word search server 1 covers a possible reading pattern and further searches including a character-based similar word. Even when there is a kanji conversion error, it is possible to extract similar word candidates with few omissions.

(変形形態)
本実施形態は、主にキーボード入力をするパーソナルコンピュータを例に説明したが、ボタンを連打することで言葉を変更する携帯電話機であってもよい。
(Deformation)
In the present embodiment, a personal computer that mainly performs keyboard input has been described as an example. However, a mobile phone that changes words by repeatedly pressing buttons may be used.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

1 類似語検索サーバ
3 ユーザ端末
10 制御部
11 検索要求受信手段
12 読み下し検索手段
13 第1結果出力手段
14 文字ベース検索手段
15 第2結果出力手段
20 記憶部
21 辞書DB
100 類似語検索システム
DESCRIPTION OF SYMBOLS 1 Similar word search server 3 User terminal 10 Control part 11 Search request receiving means 12 Reading down search means 13 1st result output means 14 Character base search means 15 2nd result output means 20 Storage part 21 Dictionary DB
100 Similar word search system

Claims (4)

検索クエリとして指定された文字列のキー入力情報を受信したことに応じて、辞書DBを用いて受信した前記キー入力情報の比較に基づく候補語の検索を実行する読み下し検索手段と、
前記読み下し検索手段による実行結果として複数の第1の候補語を出力する第1結果出力手段と、
前記第1結果出力手段により出力された前記複数の第1の候補語の各々に対して前記辞書DBを用いて前記第1の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行する文字ベース検索手段と、
前記文字ベース検索手段による実行結果として複数の第2の候補語を出力する第2結果出力手段と、
を備える、
類似語検索サーバ。
A read-out search means for performing a search for candidate words based on a comparison of the key input information received using the dictionary DB in response to receiving key input information of a character string designated as a search query;
First result output means for outputting a plurality of first candidate words as an execution result by the reading-down search means;
Retrieval of candidate words based on comparison of character information of characters corresponding to the first candidate word using the dictionary DB for each of the plurality of first candidate words output by the first result output means A character-based search means for executing
Second result output means for outputting a plurality of second candidate words as execution results by the character-based search means;
Comprising
Similar word search server.
前記読み下し検索手段は、前記候補語の検索の精度を数値化した類似度を算出し、
前記第1結果出力手段は、前記類似度が所定の基準を満たす前記複数の第1の候補語を出力する、
請求項1に記載の類似語検索サーバ。
The read-down search means calculates a similarity obtained by quantifying the search accuracy of the candidate word,
The first result output means outputs the plurality of first candidate words whose similarity satisfies a predetermined criterion.
The similar word search server according to claim 1.
前記第2結果出力手段は、前記読み下し検索手段により算出した前記類似度の度合いが高いものから順番に前記文字ベース検索手段による前記複数の第2の候補語を出力する、
請求項2に記載の類似語検索サーバ。
The second result output means outputs the plurality of second candidate words by the character base search means in descending order of the degree of similarity calculated by the read-down search means.
The similar word search server according to claim 2.
検索クエリとして指定された文字列のキー入力情報を受信するステップと、
辞書DBを用いて受信した前記キー入力情報の比較に基づく候補語の検索を実行するステップと、
前記キー入力情報の比較に基づく候補語の検索による実行結果として複数の第1の候補語を出力するステップと、
出力された前記複数の第1の候補語の各々に対して前記辞書DBを用いて前記第1の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行するステップと、
前記文字情報の比較に基づく候補語の検索による実行結果として複数の第2の候補語を出力するステップと、
を含む、
類似語検索方法。
Receiving key input information of a character string specified as a search query;
Performing a search for candidate words based on a comparison of the key input information received using a dictionary DB;
Outputting a plurality of first candidate words as an execution result by searching for candidate words based on the comparison of the key input information;
Performing a search for candidate words based on a comparison of character information of characters corresponding to the first candidate words using the dictionary DB for each of the plurality of output first candidate words;
Outputting a plurality of second candidate words as an execution result by searching for candidate words based on the comparison of the character information;
including,
Similar word search method.
JP2010001455A 2010-01-06 2010-01-06 Similar word search server and method Active JP5230664B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010001455A JP5230664B2 (en) 2010-01-06 2010-01-06 Similar word search server and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010001455A JP5230664B2 (en) 2010-01-06 2010-01-06 Similar word search server and method

Publications (2)

Publication Number Publication Date
JP2011141681A true JP2011141681A (en) 2011-07-21
JP5230664B2 JP5230664B2 (en) 2013-07-10

Family

ID=44457487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010001455A Active JP5230664B2 (en) 2010-01-06 2010-01-06 Similar word search server and method

Country Status (1)

Country Link
JP (1) JP5230664B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160049329A (en) * 2014-10-27 2016-05-09 삼성에스디에스 주식회사 Method and Apparatus for Providing User Customized Search Result

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (en) * 1985-07-10 1987-01-20 Hitachi Ltd Information retrieving method
JPH0485660A (en) * 1990-07-30 1992-03-18 Matsushita Electric Ind Co Ltd Automatic input error correcting device
JPH06243123A (en) * 1993-02-12 1994-09-02 Ricoh Co Ltd Japanese word input device and misinput correcting method
JPH09179860A (en) * 1995-12-23 1997-07-11 Nec Corp Automatic correcting system for keyboard input value
JP2003308316A (en) * 2002-04-16 2003-10-31 Victor Co Of Japan Ltd Method of correcting incorrect input by keyboard
JP2007305153A (en) * 2007-07-09 2007-11-22 Just Syst Corp Input error recovery support device
WO2009001812A1 (en) * 2007-06-26 2008-12-31 Nec Personal Products, Ltd. Thin client system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (en) * 1985-07-10 1987-01-20 Hitachi Ltd Information retrieving method
JPH0485660A (en) * 1990-07-30 1992-03-18 Matsushita Electric Ind Co Ltd Automatic input error correcting device
JPH06243123A (en) * 1993-02-12 1994-09-02 Ricoh Co Ltd Japanese word input device and misinput correcting method
JPH09179860A (en) * 1995-12-23 1997-07-11 Nec Corp Automatic correcting system for keyboard input value
JP2003308316A (en) * 2002-04-16 2003-10-31 Victor Co Of Japan Ltd Method of correcting incorrect input by keyboard
WO2009001812A1 (en) * 2007-06-26 2008-12-31 Nec Personal Products, Ltd. Thin client system
JP2007305153A (en) * 2007-07-09 2007-11-22 Just Syst Corp Input error recovery support device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160049329A (en) * 2014-10-27 2016-05-09 삼성에스디에스 주식회사 Method and Apparatus for Providing User Customized Search Result
KR102254329B1 (en) 2014-10-27 2021-05-21 삼성에스디에스 주식회사 Method and Apparatus for Providing User Customized Search Result

Also Published As

Publication number Publication date
JP5230664B2 (en) 2013-07-10

Similar Documents

Publication Publication Date Title
RU2363983C2 (en) System and method for searching using queries, written in language and/or set of characters, distinct from that of target pages
US8543580B2 (en) Mining translations of web queries from web click-through data
US7269544B2 (en) System and method for identifying special word usage in a document
JP6671027B2 (en) Paraphrase generation method, apparatus and program
US20070011132A1 (en) Named entity translation
US20120297294A1 (en) Network search for writing assistance
JP5078173B2 (en) Ambiguity Resolution Method and System
US20100153396A1 (en) Name indexing for name matching systems
US8583415B2 (en) Phonetic search using normalized string
Medhat et al. A hybrid cross-language name matching technique using novel modified Levenshtein Distance
JP2000200281A (en) Device and method for information retrieval and recording medium where information retrieval program is recorded
JP5230664B2 (en) Similar word search server and method
WO2015075920A1 (en) Input assistance device, input assistance method and recording medium
US9336317B2 (en) System and method for searching aliases associated with an entity
JP2009086979A (en) Organization name extraction apparatus, method and program
Nwesri et al. Applying Arabic stemming using query expansion
JP4942350B2 (en) Search client
JP2018055620A (en) Information processing device and program
Šimon et al. Transliterated named entity recognition based on Chinese word sketch
JP2023039822A (en) Information processing device, information processing method, and information processing program
JP2022075104A (en) Input supporting device, input supporting system and program
JPH1145280A (en) Other-language-document retrieval system, storage medium wehre other-language-retrieval program is stored, and other-language-document retrieving method
Sethuramalingam Effective Query Translation Techniques for Cross-Language Information Retrieval
JP2002259424A (en) Cross lingual information retrieval method, device and program
Wang et al. Towards Unified Chinese Segmentation Algorithm.

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120904

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130128

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5230664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250