JP5866084B2 - Search device - Google Patents
Search device Download PDFInfo
- Publication number
- JP5866084B2 JP5866084B2 JP2015551295A JP2015551295A JP5866084B2 JP 5866084 B2 JP5866084 B2 JP 5866084B2 JP 2015551295 A JP2015551295 A JP 2015551295A JP 2015551295 A JP2015551295 A JP 2015551295A JP 5866084 B2 JP5866084 B2 JP 5866084B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- similar
- candidate
- syllable
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001186 cumulative effect Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000000926 separation method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 49
- 238000000547 structure data Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- IKHGUXGNUITLKF-UHFFFAOYSA-N Acetaldehyde Chemical compound CC=O IKHGUXGNUITLKF-UHFFFAOYSA-N 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007334 memory performance Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、正式名称だけでなく略称やうろ覚えの名称などを検索キーとして、大量に登録された住所データや施設名データ中をあいまい検索することが可能な検索装置に関するものである。 The present invention relates to a search apparatus capable of performing an ambiguous search in a large number of registered address data and facility name data using not only an official name but also an abbreviated name or a name of a familiar memory as a search key.
住所や施設名を検索する場合、利用者は必ずしも正確な名称を記憶しておらず、通称や略称、うろ覚えの誤った名称などを検索キーとして検索する場合がある。
また、カーナビやスマートフォンのように、入力デバイスとしてキーボードを持たない端末や機器においては、マイクからの音声信号を音声認識した結果や、タッチパネルからの入力を文字認識した結果などから検索する場合もある。これらの入力デバイスを用いる入力の際には、認識誤り、打鍵誤りなどユーザの操作ミスによる入力誤りが存在する。
上記いずれの場合も、正式名称だけではなく、文字列あるいは発音が類似する名称をあいまい検索する技術が必要となる。When searching for an address or a facility name, the user does not necessarily store an accurate name, and may search for a common name, abbreviation, a misrecognized name, or the like as a search key.
In addition, in a terminal or device that does not have a keyboard as an input device, such as a car navigation system or a smartphone, a search may be performed based on a result of voice recognition of a voice signal from a microphone or a result of character recognition of input from a touch panel. . In input using these input devices, there are input errors due to user operation errors such as recognition errors and keystroke errors.
In any of the above cases, not only the official name but also a technique for fuzzy searching for a character string or a name with similar pronunciation is required.
上記のようなあいまい検索を可能とする技術の一例として例えば特許文献1に示す検索装置があった。特許文献1に示された検索装置は、入力されたキーワードから部分文字列の一致度を用いて類似語候補を検索し、さらにこれらの類似語候補から入力キーワードと編集距離の近い類似語を抽出して検索キーワードに追加することで曖昧な全文検索を行うものである。例えば、「アセトアルデヒド」が検索キーワードとして入力されると、その部分文字列である「アセト」「アルデ」「ヒド」などを含む類似語候補を検索する。この検索結果として「アセトアルデイド」や「アセトアルドール」などの類似語候補が得られると、今度は入力キーワード「アセトアルデヒド」と各類似語候補との編集距離を計算し、このうち編集距離が小さい類似語「アセトアルデイド」も用いて全文検索することで、検索もれを少なくしていた。
As an example of a technique that enables the fuzzy search as described above, for example, there is a search device disclosed in
しかしながら、上記特許文献1に記載された技術では、事前の絞り込みに類似語候補を用いているため、ユーザからの入力が複数の単語を連ねたべた書きの場合に対応しにくいという問題があった。また、検索対象を事前に形態素解析して単語分割しておく必要もあった。
However, since the technique described in
また、類似語候補の検索にあたり、事前絞り込みの精度を上げるためにはトライグラム以上の索引利用が必要であり、辞書データサイズが巨大になるため、カーナビや携帯電話などの組み込み機器への用途には適さないという課題もあった。一方、メモリ容量を考慮し、事前絞り込みで使用する索引をバイグラム以下に限定すると、効果的な事前絞り込みが困難となり編集距離計算に時間を要するという課題があった。 In addition, when searching for similar word candidates, it is necessary to use an index larger than trigrams in order to improve the precision of prior narrowing down, and the dictionary data size becomes enormous, so it is suitable for use in embedded devices such as car navigation systems and mobile phones. There was also a problem that was not suitable. On the other hand, considering the memory capacity, if the index used for pre-restriction is limited to the bigram or less, effective pre-restriction becomes difficult and it takes time to calculate the edit distance.
さらに、事前絞り込みの段階では誤りの偏りを考慮していないため、文字列の前方に差異が集中したり、逆に後方に集中したりと、入力誤りの補正という観点ではやや不適切な絞り込み結果となり、編集距離計算前の絞り込みが十分にできない場合があった。例えば、ユーザが「TSUNASHIMA」と入力しようとして誤って「TSUNAHIMA」と入力したとする。このとき、従来技術では事前絞り込みの結果として、「KUMASHIMA」(TS→K)や「TSUNAHARA」(IM→AR)なども含まれることになるが、これらは入力誤りという観点では、元データとの差異をもつ文字列が一か所に固まっており不自然である。 In addition, since error bias is not considered at the pre-restriction stage, differences are concentrated in front of the character string or conversely in the backward direction. As a result, there were cases in which it was not possible to sufficiently narrow down before calculating the edit distance. For example, it is assumed that the user erroneously inputs “TSUNAHIMA” when attempting to input “TSUNAHIMA”. At this time, in the prior art, “KUMASHIMA” (TS → K), “TSUNAHARA” (IM → AR), and the like are included as a result of prior narrowing down. Character strings with differences are hardened in one place and unnatural.
この発明は、かかる問題を解決するためになされたもので、省メモリかつ高速に曖昧検索結果が得られる検索装置を得ることを目的とする。 The present invention has been made to solve such a problem, and an object of the present invention is to obtain a search device that can obtain an ambiguous search result at a high speed with a reduced memory.
この発明に係る検索装置は、検索対象データの読みを2音節単位に分割して格納した音節バイグラム辞書と、正式名称を格納した名称検索用辞書と、与えられた読み文字列の一部の文字列と類似する読み文字列を音節バイグラム辞書から検索し、検索した文字列を組み合わせて類似読み候補を作成する類似読み候補作成部と、類似読み候補作成部で作成された類似読み候補を元に名称検索用辞書から正式名称を検索する名称検索部とを備えたものである。 The search device according to the present invention includes a syllable bigram dictionary in which a reading of data to be searched is divided and stored in units of two syllables, a name search dictionary in which official names are stored, and a part of characters in a given reading character string Based on the similar reading candidates created by the similar reading candidate creation unit that searches for similar reading strings from the syllable bigram dictionary and creates similar reading candidates by combining the searched character strings. A name search unit for searching for an official name from the name search dictionary.
この発明に係る検索装置は、読み文字列の一部の文字列と類似する読み文字列を音節バイグラム辞書から検索し、検索した文字列を組み合わせて類似読み候補を作成して正式名称を検索するようにしたものである。これにより、省メモリかつ高速に曖昧検索結果を得ることができる。 The search device according to the present invention searches for a reading character string similar to a part of the character string of the reading character string from the syllable bigram dictionary, creates a similar reading candidate by combining the searched character strings, and searches for a formal name. It is what I did. As a result, the ambiguous search result can be obtained at high speed with less memory.
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による検索装置を示す構成図である。なお、以下ではカーナビにおける施設名検索を例として説明するが、本発明はカーナビの施設名検索に限定されるものではなく、住所の検索や電子マニュアルの検索など、組み込み機器上でなされる検索処理全般に適用しうるものである。Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
FIG. 1 is a block diagram showing a search device according to
図1に示す検索装置は、入力部101、類似読み候補作成部103、音節バイグラム辞書104、名称検索部106、名称検索用辞書107を備える。入力部101は、ソフトウェアキーボードや音声認識などの利用者による入力操作を受け付け、読み文字列データ102に変換する。類似読み候補作成部103は、検索対象データの読みを2音節単位に分割して格納した音節バイグラム辞書104を参照して類似読み候補リスト105を作成する。名称検索部106は名称検索用辞書107を参照して、類似読み候補リスト105の各読み文字列を含む名称データを検索結果データ108として出力する。
The search apparatus shown in FIG. 1 includes an
なお、本発明の検索装置はコンピュータを用いて構成され、入力部101、類似読み候補作成部103、名称検索部106は、それぞれの機能に対応したソフトウェアをCPUが実行することで構成されている。または、いずれかの処理部を専用のハードウェアで構成してもよい。また、音節バイグラム辞書104および名称検索用辞書107は、ハードディスク装置といった記憶装置上に格納されている。
The search device of the present invention is configured using a computer, and the
以下、図1から図10までを適宜参照しつつ、実施の形態1の処理内容について説明する。図2に検索処理の基本処理フローを示す。
ステップST201は類似読み候補作成処理であり、類似読み候補作成部103が、音節バイグラム辞書104を参照し、この検索結果の音節バイグラムを組み合わせて類似読み候補を作成する。類似読み候補作成処理の詳細については後述する。
ステップST202は名称検索処理である。名称検索部106が、名称検索用辞書107を参照して、類似読み候補リスト105を含む読みの一部に含むデータを検索結果データ108として出力する。名称検索処理の詳細については後述する。Hereinafter, the processing contents of the first embodiment will be described with reference to FIGS. 1 to 10 as appropriate. FIG. 2 shows a basic processing flow of search processing.
Step ST201 is a similar reading candidate creation process. The similar reading
Step ST202 is a name search process. The
上記のように、類似読み候補を作成するステップST201と、名称を検索するステップST202とを分割することには、以下の利点がある。すなわち、索引データ容量や計算量が大きくなる曖昧検索処理については、ステップST201の音節バイグラムを元にした処理とすることで、対象データ件数を少なくして容量や計算量の増大を抑制できる。また、検索対象件数が非常に多くなるステップST202の名称検索処理については、曖昧検索をせず単純な前方一致検索処理とすることにより、速度性能およびメモリ性能を重視した処理が可能となる。 As described above, dividing the step ST201 for generating similar reading candidates and the step ST202 for searching for names has the following advantages. In other words, the ambiguous search process that increases the index data capacity and the calculation amount is a process based on the syllable bigram in step ST201, thereby reducing the number of target data and suppressing an increase in the capacity and calculation amount. In addition, the name search process in step ST202 in which the number of search objects is extremely large can be processed with emphasis on speed performance and memory performance by performing a simple forward match search process without performing an ambiguous search.
次に、類似読み候補作成処理(ステップST201)の詳細について説明する。
図3に類似読み候補作成部103の詳細構成図を示す。類似読み候補木構造データ生成部301は、音節バイグラム辞書検索部302により入力読み文字列の各部分文字列と類似する音節バイグラムの情報を取得し、この情報を組み合わせて類似読み候補木構造データ303を生成する。このデータの詳細については後述する。類似読み候補選択部304は、音節別読み編集距離判定部305、読み編集距離累積値判定部306、読み編集距離累積値計算部307、新規候補数判定部308、類似読み候補スコア順選択部309、読み出現確率累積値計算部310の各手段を呼び出し、類似読み候補木構造データ生成部301で生成された類似読み候補木構造データ303をそれぞれ所定の条件に従って選択する。各処理部の動作および選択条件については後述する。類似読み候補抽出部311は、入力読み文字列のすべての文字位置に対して類似読み候補木構造データ303の生成および選択がなされた後、この類似読み候補木構造データ303から類似読み候補文字列のリスト(類似読み候補リスト105)を抽出する。Next, details of the similar reading candidate creation process (step ST201) will be described.
FIG. 3 shows a detailed configuration diagram of the similar reading
音節バイグラム辞書104は、検索対象データに付与された読み文字列を事前に音節単位に分割し、この音節単位の読み文字列中に出現するすべての音節2つ分の読み文字列をもとに作成する。音節とは、連続する言語音を区切る分節単位の一種である。ある母音を中心に、その母音単独で、またはその母音の前後に1個または複数個の子音を伴って構成する単位である。日本語でいえば平仮名1文字に相当する単位である。2つの音節の連接からなる音節バイグラムは、特許文献1に記載された装置で使用する文字トライグラムと比較すると非常に数が少なく、辞書データサイズを小さくできるという利点がある。
The
図4に音節バイグラム辞書の例を示す。同辞書データはデータを格納する部分(データ格納部401)と同辞書を高速に検索するための文字索引402からなる。データ格納部401では、各レコードに音節読みバイグラムID(104a)、第一音節の読み(104b)、第二音節の読み(104c)、出現確率(104d)を格納する。これらは、検索対象データに付与された音節区切り入りの読み文字列、例えば検索対象データの読み文字列“MI TSU BI SHI DE N KI”からは、“MI TSU”、“TSU BI”、“BI SHI”、“SHI DE”、“DE N”、“N KI”という音節バイグラムを抽出し、データ格納部401の各レコードに格納する。その際、別途事前に各音節バイグラムの元データ中での出現頻度を計算しておき、これをもとに出現確率(104d)を計算して格納する。
FIG. 4 shows an example of a syllable bigram dictionary. The dictionary data includes a data storage portion (data storage unit 401) and a
文字索引402には、上記のデータ格納部401に高速にアクセスするための索引情報を格納する。具体的には、入力された読み文字列中の各文字を含む音節バイグラムを高速に取得するための転置索引情報(104f)をもつ。図4の例では、文字バイグラム(104e)“AK”が、音節読みバイグラムIDが2であるレコードとIDが100であるレコードに出現していることを示している。
The
次に、類似読み候補木構造データ303の概要を図5により説明する。類似読み候補木構造データ303は、多様な可能性を列挙するために生成する中間データ構造である。図中に示す音節バイグラム候補[n]は、音節バイグラム辞書104を検索して得られる情報を示している。各候補は第一音節の読み、第二音節の読み、入力読み文字列中での文字位置などを保持する(図5中では音節バイグラム候補[1]のみに記載し、他候補では記載を省略している)。図中の音節バイグラム候補[1]〜[3]は、入力読み文字列の文字位置0で始まる部分文字列に類似する候補である。音節バイグラム[5]と[6]は、文字位置1で始まる部分文字列に類似する候補である。音節バイグラム[7]〜[10]は文字位置3で始まる部分文字列に類似する候補である。ここで、音節バイグラム候補[5]と[6]は、音節バイグラム候補[3]に連なる候補であり、それぞれ“TO SU NA”、“TO SU MA”という類似読み候補を表現している。また、音節バイグラム候補[7]と[8]は、音節バイグラム候補[1]に連なる候補であり、それぞれ“TSU NA SHI”、“TSU NA KI”という類似読み候補を表現している。このように類似読み候補木構造データ303では、音節バイグラムの組み合わせにより入力読み文字列と類似する読み文字列の候補を表現する。
Next, the outline of the similar reading candidate
図6に類似読み候補木構造データ303の具体例を示す。これは図5で概念的に示した木構造を具体化したものである。図6の表の1行が、図5で示した音節バイグラム候補の1つに対応する。各候補のデータは、候補ID(303a)、第一音節読み(303b)、第二音節読み(303c)、第一音節開始位置(303d)、第二音節開始位置(303e)、第二音節終了位置(303f)、第一音節編集距離(303g)、第二音節編集距離(303h)、出現確率(303i)、親ノードID(303j)からなる。各情報がどのように設定されるかについては後述する。なお、木構造のリンク情報は303jの親ノードIDとして表現する。
FIG. 6 shows a specific example of the similar reading candidate
図7に類似読み候補作成処理(ステップST201)の詳細フローを示す。以下では、図5に示した“TSUNAHIMA”という読み文字列が入力された場合を例として説明する。ステップST701からステップST713は、入力読み文字数分だけ行うループ処理で、変数curを1ずつ増やしながらステップST702からステップST712の処理を繰り返す。ここで変数curは入力読み文字列中の文字位置を表しており、図5に示した読み文字列が入力された場合には、0から8まで順次更新される。 FIG. 7 shows a detailed flow of the similar reading candidate creation process (step ST201). Hereinafter, a case where a reading character string “TSUNAHIMA” illustrated in FIG. 5 is input will be described as an example. Steps ST701 to ST713 are loop processes performed for the number of input reading characters, and the processes from step ST702 to step ST712 are repeated while increasing the variable cur by one. Here, the variable “cur” represents the character position in the input reading character string, and when the reading character string shown in FIG.
ステップST702は音節バイグラム読み文字列検索処理である。ここでは、音節バイグラム辞書検索部302が、入力読み文字列の文字位置curで始まる部分文字列と類似する読みをもつ音節バイグラムを音節バイグラム辞書104から検索する。
Step ST702 is a syllable bigram reading character string search process. Here, the syllable bigram
図8に音節バイグラム読み文字列検索処理(ステップST702)の詳細フローを示す。ステップST801は文字単位検索処理である。ここでは、文字位置curで始まる部分文字列の各文字を含む音節バイグラムを図4に示した文字索引402を用いて検索する。cur=0の場合には、音節読みバイグラムIDが200,201,202,203のデータが検索される。cur=1の場合には、音節読みバイグラムIDが204,205のデータが検索される。cur=3の場合には、音節読みバイグラムIDが100,101,102,103のデータが検索される。この検索結果は、類似読み候補木構造データ303に仮登録される。cur=0の場合には候補IDが1,2,3,4の候補が、cur=1の場合には候補IDが5,6の候補が、cur=3の場合には候補IDが7,8,9,10の候補がそれぞれ仮登録される。まず、音節バイグラム辞書104から得られる情報である第一音節読み(303b)、第二音節読み(303c)、出現確率(303i)を各候補に格納する。続けて、文字位置curと各音節の読み長さを元に、第一音節開始位置(303d)、第二音節開始位置(303e)、第二音節終了位置(303f)を計算して格納する。
FIG. 8 shows a detailed flow of the syllable bigram reading character string search process (step ST702). Step ST801 is a character unit search process. Here, the syllable bigram including each character of the partial character string starting at the character position cur is searched using the
ステップST802は編集距離計算処理である。ここでは、ステップST801で検索された音節バイグラムデータと、入力文字列の文字位置curで始まる部分文字列との編集距離を計算する。編集距離計算は非常にコストの大きい計算処理のため、ステップST801の文字単位の検索時には、ヒットした文字数、文字の出現確率等を考慮してランキングする。このランキング結果上位の所定件数について編集距離を計算し、編集距離計算結果に基づいてランキングをし直す。ここで編集距離計算は、第一音節の読みと入力読みの部分文字列、第二音節の読みと入力読みの部分文字列でそれぞれ計算する。計算結果を類似読み候補木構造データ303に仮登録したデータの第一音節編集距離(303g)、第二音節編集距離(303h)に格納する。
Step ST802 is edit distance calculation processing. Here, the edit distance between the syllable bigram data searched in step ST801 and the partial character string starting at the character position cur of the input character string is calculated. Since the edit distance calculation is a very expensive calculation process, ranking is performed in consideration of the number of hit characters, the appearance probability of characters, and the like at the time of retrieval in units of characters in step ST801. The edit distance is calculated for a predetermined number of higher ranking results, and the ranking is re-performed based on the edit distance calculation result. Here, the edit distance calculation is performed for the partial character string of the first syllable reading and the input reading, and the partial character string of the second syllable reading and the input reading, respectively. The calculation result is stored in the first syllable editing distance (303g) and the second syllable editing distance (303h) of the data temporarily registered in the similar reading candidate
ステップST703は音節別読み編集距離判定処理である。ここでは、音節別読み編集距離判定部305が、ステップST802で計算された音節ごとの編集距離が所定値以下の候補を残し、それ以外の候補を棄却する。ここでは音節ごとの編集距離が1以下の候補を残すこととし、図5の音節バイグラム候補[4]を棄却する。棄却された候補であることを示すため、親ノードID(303h)を−1に変更する。
Step ST703 is a syllable-specific reading edit distance determination process. Here, the syllable-by-syllable reading edit
ステップST704からステップST710までの二重ループ処理では、ステップST703の結果得られた音節バイグラム候補のすべてと、既存の音節バイグラム候補のすべての接続可否を判定すると共に、読み編集距離累積値に応じた候補選択のうえで新規の音節バイグラム候補を生成する。cur=0の場合には直前の候補がない状態であるため、ステップST706の接続判定は常に真となりステップST707に進む。cur>0の場合、ステップST703までで新たに得られた各音節バイグラム候補と既存の音節バイグラム候補の接続判定を行う。接続判定は、新規音節バイグラムの第一音節読みと既存音節バイグラムの第二音節読みが一致するかどうかにより行う。例えば、cur=1の場合、音節バイグラム候補[5][6]の第一音節読みと、音節バイグラム候補[3]の第二音節読みが一致するので、音節バイグラム候補[5][6]の親ノードIDに3を格納する。同じくcur=3の場合、音節バイグラム候補[7][8]の親ノードIDに1を、音節バイグラム候補[9][10]の親ノードIDに2をそれぞれ格納する。 In the double loop processing from step ST704 to step ST710, it is determined whether all syllable bigram candidates obtained as a result of step ST703 and all existing syllable bigram candidates can be connected, and according to the reading edit distance accumulated value. After selecting candidates, a new syllable bigram candidate is generated. When cur = 0, there is no previous candidate, so the connection determination in step ST706 is always true and the process proceeds to step ST707. When cur> 0, connection determination between each syllable bigram candidate newly obtained up to step ST703 and an existing syllable bigram candidate is performed. Connection determination is performed based on whether the first syllable reading of the new syllable bigram and the second syllable reading of the existing syllable bigram match. For example, when cur = 1, the first syllable reading of the syllable bigram candidate [5] [6] and the second syllable reading of the syllable bigram candidate [3] match, so that the syllable bigram candidate [5] [6] 3 is stored in the parent node ID. Similarly, when cur = 3, 1 is stored in the parent node ID of the syllable bigram candidate [7] [8], and 2 is stored in the parent node ID of the syllable bigram candidate [9] [10].
ステップST707は読み編集距離累積値に応じた候補選択処理である。ここでは読み編集距離累積値計算部307により計算された読み編集距離累積値に応じて読み編集距離累積値判定部306が音節バイグラム候補を選択する。
Step ST707 is candidate selection processing corresponding to the reading editing distance accumulated value. Here, the reading / editing distance cumulative
読み編集距離累積値は、類似読み候補木構造データ303の第一音節編集距離(303g)および第二音節編集距離(303h)を元に計算する。ある音節バイグラム候補の編集距離累積値は、親ノードIDをたどりながら文字位置0となる音節バイグラム候補まで第二音節編集距離(303h)を加算し、最後に第一音節編集距離(303g)を加算することで得られる。例えば、図5及び図6に示した音節バイグラム候補[8]の場合、読み編集距離累積値は1+0+0=1となる。また、音節バイグラム候補[10]の場合、読み編集距離累積値は1+1+0=2となる。
The reading editing distance accumulated value is calculated based on the first syllable editing distance (303g) and the second syllable editing distance (303h) of the similar reading candidate
候補の採否を決める閾値Th1は、入力読み文字列の長さLによって決める。入力読み文字列が長い場合には、誤りの含まれる可能性が高いので大きな値を設定する。例えば、L/4を閾値とし、読み編集距離累積値がこれより大きくなった類似読み候補を棄却する。cur=0の場合は、音節バイグラム候補[1][2][3]のいずれの候補も読み編集距離の累積値が1以下となるので、全候補が棄却されずに採用される。cur=1の場合は、音節バイグラム候補[6]では編集距離の累積値が2となるので棄却される。cur=3の場合、同様にして音節バイグラム[10]が棄却される。 The threshold value Th1 for determining whether or not a candidate is accepted is determined by the length L of the input reading character string. If the input character string is long, it is highly possible that an error is included, so a large value is set. For example, L / 4 is set as a threshold value, and similar reading candidates whose reading editing distance accumulated value is larger than this are rejected. When cur = 0, all candidates of syllable bigram candidates [1] [2] [3] have a reading edit cumulative value of 1 or less, and all candidates are adopted without being rejected. In the case of cur = 1, the cumulative value of the edit distance is 2 in the syllable bigram candidate [6], and is rejected. In the case of cur = 3, the syllable bigram [10] is similarly rejected.
ステップST708は類似読み候補木構造更新処理である。上記のステップST801で仮登録された候補を正式に登録する。例えばcur=0の場合には図6における候補IDが1,2,3の行が正式に登録される。候補IDが4の行についてはステップST703において棄却済みであるため正式登録はされない。図5との対応をとりやすくするため図6中にも記載しているが、メモリ使用量を抑制するためcur=1以降の処理で上書きしてもよい。同様にcur=1の場合には、候補IDが5の候補が正式登録され、候補IDが6の候補はステップST707で棄却されるので正式登録されない。同じくcur=3の場合には、候補IDが7,8,9の候補が正式登録される。
Step ST708 is a similar reading candidate tree structure update process. The candidates provisionally registered in step ST801 are formally registered. For example, when cur = 0, the rows with
ステップST704からステップST710までの二重ループ処理が終了すると、ステップST711に進む。ステップST711では、新規候補数判定部308が、現在の文字位置curにおいて追加された新規音節バイグラム候補数による選択処理判定を行う。
When the double loop process from step ST704 to step ST710 ends, the process proceeds to step ST711. In step ST711, the new candidate
新規候補数が所定の閾値Th2よりも多い場合に、ステップST712に進み類似読み候補スコア順選択部309が音節バイグラム候補をスコア順に整列し、スコア上位の候補を残し、スコア下位の候補を棄却する。ここで閾値Th2は、メモリ使用量や速度性能など該当機能が満たすべき外部の条件に従い、適宜設定するものとする。
When the number of new candidates is greater than the predetermined threshold value Th2, the process proceeds to step ST712, and the similar reading candidate score
スコア計算は、読み出現確率累積値計算部310により行う。具体的には、ある音節バイグラム候補のスコアは、親ノードIDをたどりながら文字位置0となる音節バイグラム候補まで出現確率(303i)を順次加算することにより得る。また、読み編集距離累積値計算部307により計算された編集距離累積値をスコアとして用いても良い。編集距離累積値の計算方法は、ステップST707と同様の手順とする。
The score calculation is performed by the reading appearance probability cumulative
ステップST701からステップST713までのループ処理が終了すると、ステップST714に進む。なお、図7中には示していないが、ステップST701の直後に、ステップST706の接続判定を行うようにしても良い。すなわち、既存の音節バイグラム候補のいずれも第二音節終了位置(303f)が現在の文字位置curでなければ、ステップST702、ST703の処理をしたとしてもステップST706ですべて棄却されてしまう。ループ処理の先頭でこのような事前の接続検定を行い、接続可能な候補がなければステップST702以下の処理をスキップすることで無駄な処理を防ぐことができる。 When the loop processing from step ST701 to step ST713 ends, the process proceeds to step ST714. Although not shown in FIG. 7, the connection determination in step ST706 may be performed immediately after step ST701. That is, if none of the existing syllable bigram candidates is the second character syllable end position (303f) at the current character position cur, even if the processes of steps ST702 and ST703 are performed, all of them are rejected at step ST706. Such a prior connection test is performed at the beginning of the loop processing, and if there is no connectable candidate, the processing after step ST702 can be skipped to prevent useless processing.
ステップST714では類似読み候補抽出部311が、類似読み候補木構造データ303から実際の類似読み候補文字列を抽出する。類似読み候補文字列は、木構造データの末端にあり、かつ、第二音節終了位置(303f)が入力読み文字列の末端に達している音節バイグラム候補に対して、親ノードIDをたどりながら文字位置0となる音節バイグラム候補まで第二音節読み(303c)を順次連結し、最後に第一音節読み(303b)を連結して得られた文字列を逆順にすることで得られる。
In step ST714, the similar reading
以上が図2のステップ201の類似読み候補作成処理の詳細である。次にステップST202の名称検索処理について説明する。
The above is the details of the similar reading candidate creation process in
名称検索処理では、名称検索部106が、名称検索用辞書107を参照して、類似読み候補リスト105を含む名称データを検索して出力する。ここでは、例えば、特開2010−205119号公報に示される検索手法を用いることとする。検索手法の詳細については文献中に記載されているため、以下では検索処理の概略を説明する。
In the name search process, the
図9に名称検索用辞書107の構成例を示す。名称検索部106は、ダブル配列索引データ901に基づいて、与えられた類似読み候補文字列に該当するノードを探索する。続けて、最小・最大子ノード索引902に基づいて、上記で探索されたノードの子ノードのうち、辞書順で最小の文字列となるノードと最大の文字列となるノードとを探索する。さらに、名称リスト903より、上記で探索された最小ノードに対応する名称から最大ノードに対応する名称までのすべての名称を抽出して検索結果データ108とする。
FIG. 9 shows a configuration example of the
図10に名称リスト903の例を示す。名称リスト903は少なくとも、各名称を一意に特定する名称ID(903a)と、その名称の読み文字列(903b)と、種別情報(903c)からなるものとする。なお、図10では、同一の名称IDである3をもつ行を2箇所に示しているが、これは、読み文字列(903b)を、途中の文字からでも検索可能とするため事前に展開して索引化しているためである。
FIG. 10 shows an example of the
上記の説明では、一例として特開2010−205119号公報に記載のダブル配列索引を用いた検索手法を示したが、ステップST202の名称検索処理は、類似読み候補リスト105に含まれる各類似読み候補文字列から、その読み文字列を含む名称データを高速に検索できる手法であればどのようなものであっても適用可能である。例えば、組み込み機器向けのデータベースを用いても良いし、図9に示した名称リスト903のもつ情報を高速検索するための木構造索引データの中に埋め込む構造としても良い。
In the above description, the search method using the double array index described in Japanese Patent Application Laid-Open No. 2010-205119 is shown as an example. However, the name search process in step ST202 is performed by each similar reading candidate included in the similar
このように、実施の形態1では、検索対象データの読みを2音節単位に分割して格納した音節バイグラム辞書104と、ユーザが入力した読み文字列の一部の文字列と類似する読み文字列を音節バイグラム辞書104から検索し、これらを組み合わせて類似読み候補を作成する手段を設けたことにより、事前の単語区切りが不要で、かつ、日本語や韓国語や中国語などのユーザが複数の単語を連続して入力しうる言語において柔軟かつ高速な曖昧検索が可能となる。
また、所定の選択基準により適宜候補を選択しつつ類似読み候補を作成するための類似読み候補選択部304を設けたことにより、入力文字数が大きくなっても組み合わせが急激に増加することなく、省メモリかつ高速な類似読み文字列候補の作成が可能となる。As described above, in the first embodiment, the
Further, by providing a similar reading
以上説明したように、実施の形態1の検索装置によれば、検索対象データの読みを2音節単位に分割して格納した音節バイグラム辞書と、正式名称を格納した名称検索用辞書と、与えられた読み文字列の一部の文字列と類似する読み文字列を音節バイグラム辞書から検索し、検索した文字列を組み合わせて類似読み候補を作成する類似読み候補作成部と、類似読み候補作成部で作成された類似読み候補を元に名称検索用辞書から正式名称を検索する名称検索部とを備えたので、通称や略称、うろ覚えの誤った名称などを検索キーとして検索した場合であっても元の正式名称を曖昧検索して出力できる検索装置として、省メモリでかつ高速な処理を実現することができる。 As described above, according to the search device of the first embodiment, the syllable bigram dictionary storing the reading of the search target data divided into units of two syllables, the name search dictionary storing the official names, are given. A similar reading candidate creation unit that searches a similar reading candidate character string from a syllable bigram dictionary and creates a similar reading candidate by combining the searched character strings. Since it has a name search unit that searches the official name from the name search dictionary based on the similar reading candidates that have been created, even if the search key is a common name, abbreviation, or misrecognized name As a search device capable of fuzzy searching and outputting the official name, it is possible to realize memory-saving and high-speed processing.
また、実施の形態1の検索装置によれば、類似読み候補作成部は、検索した文字列を組み合わせて作成した類似読み候補を取捨選択する類似読み候補選択部を備えたので、省メモリかつ高速に曖昧検索結果を得ることができる。 In addition, according to the search device of the first embodiment, the similar reading candidate creation unit includes the similar reading candidate selection unit that selects similar reading candidates created by combining the searched character strings. A vague search result can be obtained.
また、実施の形態1の検索装置によれば、類似読み候補選択部は、音節バイグラム辞書から検索された各音節の読みと、これと対応する与えられた読み文字列の部分文字列との編集距離が所定値以下の類似読み候補を選択し、これ以外の類似読み候補を棄却する音節別読み編集距離判定部を備えたので、省メモリかつ高速に曖昧検索結果を得ることができる。 Further, according to the search device of the first embodiment, the similar reading candidate selection unit edits the reading of each syllable searched from the syllable bigram dictionary and the corresponding partial character string of the given reading character string. A syllable-by-syllable reading edit distance determination unit that selects similar reading candidates whose distance is equal to or smaller than a predetermined value and rejects other similar reading candidates is provided, so that an ambiguous search result can be obtained at high speed with less memory.
また、実施の形態1の検索装置によれば、類似読み候補選択部は、音節バイグラム辞書から検索された各音節の読みと、これと対応する与えられた読み文字列の部分文字列との編集距離の累積値を計算する読み編集距離累積値計算部と、読み編集距離累積値計算部により計算された読み編集距離累積値が所定値以下の類似読み候補を選択し、これ以外の類似読み候補を棄却する読み編集距離累積値判定部とを備えたので、省メモリかつ高速に曖昧検索結果を得ることができる。 Further, according to the search device of the first embodiment, the similar reading candidate selection unit edits the reading of each syllable searched from the syllable bigram dictionary and the corresponding partial character string of the given reading character string. A reading editing distance cumulative value calculation unit that calculates the cumulative value of distances, and a similar reading candidate whose reading editing distance cumulative value calculated by the reading editing distance cumulative value calculation unit is equal to or less than a predetermined value, and other similar reading candidates Is provided with a reading edit distance cumulative value determination unit that rejects the ambiguity, so that an ambiguous search result can be obtained at high speed with a reduced memory.
また、実施の形態1の検索装置によれば、類似読み候補選択部は、類似読み候補数が所定値を超えたかどうかを判定する新規候補数判定部と、新規候補数判定部で所定値を超えたと判定した場合、類似読み候補のスコアを計算し、スコア上位の所定値の類似読み候補のみを残す類似読み候補スコア順選択部を備えたので、省メモリかつ高速に曖昧検索結果を得ることができる。 Further, according to the search device of the first embodiment, the similar reading candidate selection unit determines the predetermined value by the new candidate number determination unit that determines whether or not the number of similar reading candidates exceeds a predetermined value, and the new candidate number determination unit. If it is determined that the number of similar reading candidates has been exceeded, the score of the similar reading candidate is calculated, and the similar reading candidate score order selection unit that leaves only the similar reading candidate having a predetermined value higher in the score is provided. Can do.
また、実施の形態1の検索装置によれば、類似読み候補スコア順選択部は、読み編集距離累積値計算部により計算された読み編集距離の累積値を元に類似読み候補のスコアを計算するようにしたので、省メモリかつ高速に曖昧検索結果を得ることができる。 Further, according to the search device of the first embodiment, the similar reading candidate score order selection unit calculates the score of the similar reading candidate based on the cumulative value of the reading editing distance calculated by the reading editing distance cumulative value calculation unit. As a result, ambiguous search results can be obtained at high speed with less memory.
また、実施の形態1の検索装置によれば、類似読み候補選択部は、音節バイグラム辞書から検索された各音節の出現確率の累積値を計算する読み出現確率累積値計算部を有し、類似読み候補スコア順選択部は、読み出現確率累積値計算部の計算結果を元に類似読み候補のスコアを計算するようにしたので、省メモリかつ高速に曖昧検索結果を得ることができる。 Further, according to the search device of the first embodiment, the similar reading candidate selection unit has the reading appearance cumulative value calculation unit that calculates the cumulative value of the appearance probability of each syllable searched from the syllable bigram dictionary, Since the reading candidate score order selection unit calculates the score of the similar reading candidate based on the calculation result of the reading appearance probability cumulative value calculation unit, the ambiguous search result can be obtained at high speed with less memory.
実施の形態2.
図11は、実施の形態2の検索装置を示す構成図である。実施の形態2は、実施の形態1における類似読み候補作成部103に代えて名称先読み類似読み候補作成部1101を設けたものである。名称先読み類似読み候補作成部1101は、検索対象データの読みを2音節単位に分割して格納した音節バイグラム辞書104を参照して類似読み候補リスト105aを作成する。その際、候補選択処理の一部で名称検索用辞書107も参照する。その他の構成については図1に示した実施の形態1の構成と同様であるため、対応する部分に同一符号を付してその説明を省略する。
FIG. 11 is a configuration diagram illustrating the search device according to the second embodiment. In the second embodiment, a name pre-read similar reading
図12に、名称先読み類似読み候補作成部1101の詳細構成図を示す。名称有無判定部1201は名称検索用辞書107を参照し、類似読み候補が名称辞書中に存在するかどうかを判定する。これ以外の構成については図3に示した実施の形態1の構成と同様であるので、対応する部分に同一符号を付してその説明を省略する。
FIG. 12 shows a detailed configuration diagram of the name prefetching similar reading
図13は、実施の形態2における名称先読み類似読み候補作成処理を示すフローチャートである。ステップST1301の名称検索有無判定処理以外については、実施の形態1の図7に示した処理と同様であるため、ステップST1301以外の処理についてはその説明を省略する。ステップST1301では、まず、ステップST707の処理結果の各音節バイグラム候補に対し、類似読み候補抽出部311により類似読み候補文字列を抽出する。次に、名称有無判定部1201が名称検索用辞書107を参照し、この類似読み候補文字列が名称検索用辞書107中に存在するかどうかを判定する。もし存在しないのであれば、後段の名称検索処理で検索に失敗するので、この時点で候補を棄却する。
なお、ステップST1301の名称有無判定処理では、最終的な名称データ自体は必要ないため、ダブル配列索引データ901(図9参照)のみを用いることで、より高速な検索処理を行う。FIG. 13 is a flowchart illustrating a name prefetching similar reading candidate creation process according to the second embodiment. Since the processing other than the name search presence / absence determination processing in step ST1301 is the same as the processing shown in FIG. 7 of the first embodiment, description of processing other than step ST1301 is omitted. In step ST1301, first, a similar reading candidate character string is extracted by the similar reading
Note that the final name data itself is not necessary in the name presence / absence determination process in step ST1301, and therefore a faster search process is performed by using only the double array index data 901 (see FIG. 9).
以上説明したように、実施の形態2の検索装置によれば、類似読み候補選択部は、類似読み候補に対し、名称検索用辞書を検索することで名称の一部となり得る類似読み候補を選択し、これ以外の類似読み候補を棄却する名称有無判定部を備えたので、類似読み候補のうち、実際に名称検索して結果が得られるもののみを選択でき、さらに省メモリかつ高速な曖昧検索処理が可能となる。 As described above, according to the search device of the second embodiment, the similar reading candidate selection unit selects a similar reading candidate that can be part of the name by searching the name search dictionary for the similar reading candidate. In addition, a name presence / absence determination unit that rejects other similar reading candidates is provided, so that only those that can be obtained as a result of an actual name search among similar reading candidates can be selected. Processing is possible.
実施の形態3.
図14は実施の形態3の検索装置を示す構成図である。実施の形態3は、実施の形態1における入力部101と類似読み候補作成部103に代えて読み変換入力部1401と区切り限定類似読み候補作成部1403とを設けたものである。読み変換入力部1401では、日本語の仮名漢字変換、中国語のピンイン漢字変換、韓国語の字母ハングル変換など、ユーザが読み文字列を入力して表記文字列に変換する。その結果を表記の1文字ずつに対応するよう読み文字列に区切りが付与された区切り付き読み文字列データ1402として取得する。区切り限定類似読み候補作成部1403では、区切り付き読み文字列データ1402を用いて、実施の形態1と同様に音節バイグラム辞書104を参照して、類似読み候補リスト105bを作成する。その他の構成については図1に示した実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
FIG. 14 is a block diagram showing the search device of the third embodiment. In the third embodiment, instead of the
図15は、区切り限定類似読み候補作成部1403の詳細を示す構成図である。区切り限定類似読み候補木構造データ生成部1501は、音節バイグラム辞書検索部302により区切り付き読み文字列データ1402の各部分文字列と類似する音節バイグラムの情報を取得し、この情報を組み合わせて類似読み候補木構造データ303を生成する。これ以外の構成については図3に示した実施の形態1の構成と同様であるので、対応する部分に同一符号を付してその説明を省略する。
FIG. 15 is a configuration diagram illustrating details of the delimiter limited similar reading
図16は、実施の形態3における区切り限定類似読み候補作成処理を示すフローチャートである。ステップST1601の入力読み区切り判定処理以外については、実施の形態1の図7に示した処理と同様であるため、ステップST1601以外の処理についてはその説明を省略する。ステップST1601では、入力された読み区切りの情報を元に、音節バイグラム検索結果を類似読み候補木構造データ303に登録するかどうかを判定する。具体的には、現在の文字位置curと検索結果の第一音節の読み長さが、入力された読み文字列区切りに一致するか否かを判定し、一致しない場合にはその候補を棄却する。
FIG. 16 is a flowchart showing a segmentation limited similar reading candidate creation process according to the third embodiment. Since the processing other than the input reading delimitation determination processing in step ST1601 is the same as the processing shown in FIG. 7 of the first embodiment, the description of processing other than step ST1601 is omitted. In step ST1601, it is determined whether or not to register the syllable bigram search result in the similar reading candidate
ステップST1601で候補が棄却される例を図17に示す。この例では、区切り付き入力読み文字列が「TSU/NA/HI/MA」であるのに対し、音節バイグラム候補[3]では、2音節分で区切り付き読み入力の「TSU」に対応しており音節区切りが一致しないので棄却される。 An example in which candidates are rejected in step ST1601 is shown in FIG. In this example, the delimited input reading character string is “TSU / NA / HI / MA”, whereas the syllable bigram candidate [3] corresponds to the delimited input input “TSU” for two syllables. It is rejected because the syllable break does not match.
以上説明したように、実施の形態3の検索装置によれば、検索対象データの読みを2音節単位に分割して格納した音節バイグラム辞書と、正式名称を格納した名称検索用辞書と、音節単位で区切られた区切り付き読み文字列の一部の文字列と類似する読み文字列を音節バイグラム辞書から検索し、検索した文字列を組み合わせて類似読み候補を作成すると共に、区切り付き読み文字列に対し、区切り読み文字列中の音節区切りと音節バイグラム辞書の検索結果との一致判定を行い、区切りが一致しない音節バイグラム検索結果を棄却して類似読み候補を作成する区切り限定類似読み候補作成部と、区切り限定類似読み候補作成部で作成された類似読み候補を元に名称検索用辞書から正式名称を検索する名称検索部とを備えたので、入力と一致しない不要な音節バイグラム候補を棄却でき、さらに省メモリかつ高速な曖昧検索が可能となる。 As described above, according to the search device of the third embodiment, the syllable bigram dictionary in which the reading of the search target data is divided and stored in units of two syllables, the name search dictionary that stores official names, and the syllable units The syllable bigram dictionary searches for a reading string that is similar to a part of the separated reading string separated by, and creates a similar reading candidate by combining the searched strings. On the other hand, a delimiter limited similar reading candidate creation unit that performs a match determination between a syllable delimiter in a delimiter reading character string and a search result of the syllable bigram dictionary, rejects a syllable bigram search result that does not match the delimiter, and creates a similar reading candidate Since it has a name search unit that searches for a formal name from the dictionary for name search based on the similar reading candidate created by the delimiter limited similar reading candidate creation unit, it matches the input Not to reject the unwanted syllables bigram candidates, it is possible to further saving memory and fast fuzzy search.
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of the embodiments, or any modification of any component in each embodiment, or omission of any component in each embodiment is possible. .
以上のように、この発明に係る検索装置は、読み文字列の一部の文字列と類似する読み文字列を音節バイグラム辞書 から検索し、検索した文字列を組み合わせて類似読み候補を作成して正式名称を検索するようにしたものであり、カーナビの施設名検索や、住所の検索や電子マニュアルの検索など組み込み機器上でなされる検索処理全般に適用しうる。 As described above, the search device according to the present invention searches the syllable bigram dictionary for a reading character string similar to a part of the character string of the reading character string, and creates a similar reading candidate by combining the searched character strings. The official name is searched, and can be applied to search processing performed on an embedded device such as a car navigation facility name search, an address search, and an electronic manual search.
101 入力部、102 読み文字列データ、103 類似読み候補作成部、104 音節バイグラム辞書、105,105a,105b 類似読み候補リスト、106 名称検索部、107 名称検索用辞書、108 検索結果データ、301 類似読み候補木構造データ生成部、302 音節バイグラム辞書検索部、303 類似読み候補木構造データ、304 類似読み候補選択部、305 音節別読み編集距離判定部、306 読み編集距離累積値判定部、307 読み編集距離累積値計算部、308 新規候補数判定部、309 類似読み候補スコア順選択部、310 読み出現確率累積値計算部、311 類似読み候補抽出部、1101 名称先読み類似読み候補作成部、1201 名称有無判定部、1401 読み変換入力部、1402 区切り付き読み文字列データ、1403 区切り限定類似読み候補作成部、1501 区切り限定類似読み候補木構造データ生成部。 101 Input unit, 102 Reading character string data, 103 Similar reading candidate creation unit, 104 Syllable bigram dictionary, 105, 105a, 105b Similar reading candidate list, 106 Name search unit, 107 Name search dictionary, 108 Search result data, 301 Similar Reading candidate tree structure data generation unit, 302 syllable bigram dictionary search unit, 303 similar reading candidate tree structure data, 304 similar reading candidate selection unit, 305 syllable-specific reading editing distance determination unit, 306 reading editing distance accumulated value determination unit, 307 reading Edit distance cumulative value calculation unit, 308 New candidate number determination unit, 309 Similar reading candidate score order selection unit, 310 Reading appearance probability cumulative value calculation unit, 311 Similar reading candidate extraction unit, 1101 Name prefetched similar reading candidate creation unit, 1201 Name Presence / absence determination unit, 1401 Reading conversion input unit, 1402 Sticky reading character string data, 1403 delimiter limited similar reading candidate creation unit, 1501 delimiter limited similar reading candidate tree structure data generation unit.
Claims (9)
正式名称を格納した名称検索用辞書と、
与えられた読み文字列の一部の文字列と類似する読み文字列を前記音節バイグラム辞書から検索し、当該検索した文字列を組み合わせて類似読み候補を作成する類似読み候補作成部と、
前記類似読み候補作成部で作成された前記類似読み候補を元に前記名称検索用辞書から正式名称を検索する名称検索部とを備えた検索装置。A syllable bigram dictionary that stores the search target data divided into two syllable units;
A dictionary for name search that stores the official name,
A similar reading candidate creation unit that searches the syllable bigram dictionary for a reading character string similar to a part of a given reading character string, and creates a similar reading candidate by combining the searched character strings;
A search device comprising: a name search unit that searches for a formal name from the name search dictionary based on the similar reading candidate created by the similar reading candidate creation unit.
正式名称を格納した名称検索用辞書と、
音節単位で区切られた区切り付き読み文字列の一部の文字列と類似する読み文字列を前記音節バイグラム辞書から検索し、当該検索した文字列を組み合わせて類似読み候補を作成すると共に、前記区切り付き読み文字列に対し、当該区切り読み文字列中の音節区切りと前記音節バイグラム辞書の検索結果との一致判定を行い、区切りが一致しない音節バイグラム検索結果を棄却して類似読み候補を作成する区切り限定類似読み候補作成部と、
前記区切り限定類似読み候補作成部で作成された前記類似読み候補を元に前記名称検索用辞書から正式名称を検索する名称検索部とを備えた検索装置。A syllable bigram dictionary that stores the search target data divided into two syllable units;
A dictionary for name search that stores the official name,
A reading character string similar to a partial character string of a delimited reading character string divided in syllable units is searched from the syllable bigram dictionary, a similar reading candidate is created by combining the searched character strings, and the separation A delimiter that creates a similar reading candidate by rejecting a syllable bigram search result that does not match the syllable bigram dictionary search result for the diacritic character string A limited similar reading candidate creation section;
A search device comprising: a name search unit that searches a formal name from the name search dictionary based on the similar reading candidates created by the delimitation limited similar reading candidate creation unit.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/050699 WO2015107659A1 (en) | 2014-01-16 | 2014-01-16 | Inspection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5866084B2 true JP5866084B2 (en) | 2016-02-17 |
JPWO2015107659A1 JPWO2015107659A1 (en) | 2017-03-23 |
Family
ID=53542578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015551295A Active JP5866084B2 (en) | 2014-01-16 | 2014-01-16 | Search device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5866084B2 (en) |
WO (1) | WO2015107659A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102061413B1 (en) * | 2018-05-30 | 2019-12-31 | 연세대학교 산학협력단 | Real-time stochastic pattern matching apparatus and method based on automata |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418951A (en) * | 1992-08-20 | 1995-05-23 | The United States Of America As Represented By The Director Of National Security Agency | Method of retrieving documents that concern the same topic |
JP2003288366A (en) * | 2002-03-28 | 2003-10-10 | Fujitsu Ltd | Similar text retrieval device |
JP2008262279A (en) * | 2007-04-10 | 2008-10-30 | Mitsubishi Electric Corp | Speech retrieval device |
JP2011033680A (en) * | 2009-07-30 | 2011-02-17 | Sony Corp | Voice processing device and method, and program |
JP2011118775A (en) * | 2009-12-04 | 2011-06-16 | Sony Corp | Retrieval device, retrieval method, and program |
WO2011077889A1 (en) * | 2009-12-21 | 2011-06-30 | 日本電気株式会社 | Similar document search apparatus, similar document search system, similar document search method and similar document search program |
WO2011104754A1 (en) * | 2010-02-24 | 2011-09-01 | 三菱電機株式会社 | Search device and search program |
JP2012059126A (en) * | 2010-09-10 | 2012-03-22 | Mitsubishi Electric Corp | Search device |
-
2014
- 2014-01-16 WO PCT/JP2014/050699 patent/WO2015107659A1/en active Application Filing
- 2014-01-16 JP JP2015551295A patent/JP5866084B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418951A (en) * | 1992-08-20 | 1995-05-23 | The United States Of America As Represented By The Director Of National Security Agency | Method of retrieving documents that concern the same topic |
JP2003288366A (en) * | 2002-03-28 | 2003-10-10 | Fujitsu Ltd | Similar text retrieval device |
JP2008262279A (en) * | 2007-04-10 | 2008-10-30 | Mitsubishi Electric Corp | Speech retrieval device |
JP2011033680A (en) * | 2009-07-30 | 2011-02-17 | Sony Corp | Voice processing device and method, and program |
JP2011118775A (en) * | 2009-12-04 | 2011-06-16 | Sony Corp | Retrieval device, retrieval method, and program |
WO2011077889A1 (en) * | 2009-12-21 | 2011-06-30 | 日本電気株式会社 | Similar document search apparatus, similar document search system, similar document search method and similar document search program |
WO2011104754A1 (en) * | 2010-02-24 | 2011-09-01 | 三菱電機株式会社 | Search device and search program |
JP2012059126A (en) * | 2010-09-10 | 2012-03-22 | Mitsubishi Electric Corp | Search device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102061413B1 (en) * | 2018-05-30 | 2019-12-31 | 연세대학교 산학협력단 | Real-time stochastic pattern matching apparatus and method based on automata |
Also Published As
Publication number | Publication date |
---|---|
JPWO2015107659A1 (en) | 2017-03-23 |
WO2015107659A1 (en) | 2015-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
US9230541B2 (en) | Keyword detection for speech recognition | |
JP5257071B2 (en) | Similarity calculation device and information retrieval device | |
JP5362095B2 (en) | Input method editor | |
JP5318230B2 (en) | Recognition dictionary creation device and speech recognition device | |
US11550751B2 (en) | Sequence expander for data entry/information retrieval | |
KR20140028174A (en) | Method for recognizing speech and electronic device thereof | |
KR101126406B1 (en) | Method and System for Determining Similar Word with Input String | |
JP5540015B2 (en) | Method and system for selecting word strings for text written in a language without word boundary markers | |
JP5426710B2 (en) | Search support device, search support method and program | |
JP6599219B2 (en) | Reading imparting device, reading imparting method, and program | |
US20110320464A1 (en) | Retrieval device | |
CN109800427B (en) | Word segmentation method, device, terminal and computer readable storage medium | |
JP5951105B2 (en) | Search device | |
KR20160143491A (en) | Text division program, text division apparatus, and text division method | |
JP5866084B2 (en) | Search device | |
US9996508B2 (en) | Input assistance device, input assistance method and storage medium | |
US20190155902A1 (en) | Information generation method, information processing device, and word extraction method | |
JP5846340B2 (en) | String search device | |
Suyanto et al. | Data augmentation methods for low-resource orthographic syllabification | |
JP2016126498A (en) | Morpheme analysis device and program | |
CN110956954B (en) | Speech recognition model training method and device and electronic equipment | |
TW200951743A (en) | Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server | |
JP5533197B2 (en) | Search device and computer program | |
KR20150015878A (en) | Phonemic based search method for searching of korean address book |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20151118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5866084 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |