JP2015138126A - Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program - Google Patents

Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program Download PDF

Info

Publication number
JP2015138126A
JP2015138126A JP2014009298A JP2014009298A JP2015138126A JP 2015138126 A JP2015138126 A JP 2015138126A JP 2014009298 A JP2014009298 A JP 2014009298A JP 2014009298 A JP2014009298 A JP 2014009298A JP 2015138126 A JP2015138126 A JP 2015138126A
Authority
JP
Japan
Prior art keywords
reading
notation
dictionary
unit
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014009298A
Other languages
Japanese (ja)
Other versions
JP6248646B2 (en
Inventor
高橋 潤
Jun Takahashi
潤 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014009298A priority Critical patent/JP6248646B2/en
Publication of JP2015138126A publication Critical patent/JP2015138126A/en
Application granted granted Critical
Publication of JP6248646B2 publication Critical patent/JP6248646B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve accuracy of correspondence between notation and reading when creating a dictionary using existing data.SOLUTION: A voice dictionary creation device includes: an input unit for acquiring a first notation and a first reading corresponding to the notation and the reading of character strings respectively; an extraction unit for extracting characters of a removal object estimated to have no portions corresponding to the first reading, out of the character strings in the first notation; a creation unit for creating a second notation in which the characters of the removal object are removed from the first notation; and a selection unit for, out of a plurality of temporary readings created based on the reading of characters in each of the first notation and the second notation, selecting the temporary reading which is the closest to the first reading as the second reading; and a registration unit for registering the notation and the reading of unknown words contained in the first notation in the dictionary based on the notation corresponding to the second reading out of the first notation and the second notation and the second reading.

Description

本発明は、音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラムに関する。   The present invention relates to a speech dictionary creation device, a speech dictionary creation method, and a speech dictionary creation program.

近年、音声で情報を取得するサービスが普及してきている。この種のサービスには、音声対話システムが使用される。例えば、音声対話システムは、利用者の音声を正しく認識し、回答音声を正しく読み上げる(合成する)ために、音声辞書を有している。音声辞書には、文字の表記および読みが蓄積されている。例えば、音声辞書等を作成する辞書作成装置は、形態素解析で得られた表記に対して読みを推定し、表記と読みとを対応付けて辞書に登録する(例えば、特許文献1−4)。   In recent years, services for acquiring information by voice have become widespread. A voice interaction system is used for this type of service. For example, a speech dialogue system has a speech dictionary in order to correctly recognize a user's speech and read (synthesize) a reply speech correctly. In the speech dictionary, character notations and readings are accumulated. For example, a dictionary creation device that creates a speech dictionary or the like estimates a reading for a notation obtained by morphological analysis, and registers the notation and the reading in association with each other (for example, Patent Documents 1-4).

また、近年、携帯電話のアドレス帳等に記憶されている既存のデータを用いて辞書を作成する辞書作成装置が提案されている(例えば、特許文献5)。この種の辞書作成装置は、例えば、表記と読みとが対になったテキストデータを記憶している記憶部からテキストデータを取得する。そして、辞書作成装置は、表記と読みとが対になったテキストデータを単語や語句単位に分割し、分割した単語や語句の表記と読みを辞書に登録する。   In recent years, there has been proposed a dictionary creation device that creates a dictionary using existing data stored in an address book of a mobile phone (for example, Patent Document 5). For example, this type of dictionary creation apparatus acquires text data from a storage unit that stores text data in which notation and reading are paired. Then, the dictionary creation device divides text data in which notation and reading are paired into units of words and phrases, and registers the notations and readings of the divided words and phrases in the dictionary.

特開2002−41081号公報JP 2002-41081 A 特開2009−204732号公報JP 2009-204732 A 特開2000−207394号公報JP 2000-207394 A 特開2004−151847号公報JP 2004-151847 A 特開2009−258293号公報JP 2009-258293 A

既存のデータでは、表記と読みとの対応が厳密でない場合がある。例えば、文字列内の一部の単語の読みが省略されたデータでは、データ内の表記と読みに不一致が生じる。辞書の作成に用いられる既存のデータ内の表記と読みに不一致がある場合、表記と読みとの対応付けが失敗するおそれがある。すなわち、既存のデータを用いて辞書を作成する方法では、データ内の表記と読みに不一致がある場合、表記と読みとの対応付けの精度が低下するおそれがある。   In existing data, the correspondence between notation and reading may not be exact. For example, in data in which reading of some words in a character string is omitted, there is a discrepancy between the notation and reading in the data. If there is a discrepancy between the notation and the reading in the existing data used for creating the dictionary, the correspondence between the notation and the reading may fail. That is, in the method of creating a dictionary using existing data, when there is a discrepancy between the notation and the reading in the data, there is a possibility that the accuracy of the correspondence between the notation and the reading may be lowered.

1つの側面では、本件開示の音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラムは、既存のデータを用いて辞書を作成する際に、表記と読みとの対応付けの精度を向上することを目的とする。   In one aspect, the speech dictionary creation device, the speech dictionary creation method, and the speech dictionary creation program disclosed herein improve the accuracy of correspondence between notation and reading when creating a dictionary using existing data. With the goal.

一観点によれば、音声辞書作成装置は、文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得する入力部と、第1表記中の文字列のうち、第1読みに対応する部分がないと推定される除去対象の文字を抽出する抽出部と、除去対象の文字を第1表記から除去した第2表記を作成する作成部と、第1表記および第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、第1読みに最も類似する仮の読みを第2読みとして選択する選択部と、第1表記および第2表記のうちの第2読みに対応する表記と第2読みとに基づいて、第1表記に含まれる未知語の表記および読みを辞書に登録する登録部とを有している。   According to one aspect, the speech dictionary creation device includes an input unit that acquires a first notation and a first reading corresponding to a notation and a reading of a character string, and a first reading among the character strings in the first notation. An extraction unit that extracts a character to be removed that is estimated to have no corresponding part, a creation unit that creates a second notation in which the character to be removed is removed from the first notation, and each of the first notation and the second notation A selection unit that selects, as a second reading, a temporary reading that is most similar to the first reading from a plurality of temporary readings that are generated based on the reading of characters in the notation; Based on the notation corresponding to the second reading and the second reading, it has a registration unit for registering the notation and reading of the unknown word included in the first notation in the dictionary.

別の観点によれば、音声辞書作成方法は、文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得し、第1表記中の文字列のうち、第1読みに対応する部分がないと推定される除去対象の文字を抽出し、除去対象の文字を第1表記から除去した第2表記を作成し、第1表記および第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、第1読みに最も類似する仮の読みを第2読みとして選択し、第1表記および第2表記のうちの第2読みに対応する表記と第2読みとに基づいて、第1表記に含まれる未知語の表記および読みを辞書に登録する。   According to another aspect, the speech dictionary creation method acquires the first notation and the first reading corresponding to the notation and the reading of the character string, respectively, and corresponds to the first reading among the character strings in the first notation. Based on the reading of the characters in each of the first and second notations, extracting the characters to be removed that are presumed to have no part, creating the second notation by removing the characters to be removed from the first notation A temporary reading most similar to the first reading is selected as the second reading, and the notation corresponding to the second reading of the first notation and the second notation and the second reading are selected. Based on the above, the notation and reading of the unknown word included in the first notation are registered in the dictionary.

別の観点によれば、音声辞書作成プログラムは、文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得し、第1表記中の文字列のうち、第1読みに対応する部分がないと推定される除去対象の文字を抽出し、除去対象の文字を第1表記から除去した第2表記を作成し、第1表記および第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、第1読みに最も類似する仮の読みを第2読みとして選択し、第1表記および第2表記のうちの第2読みに対応する表記と第2読みとに基づいて、第1表記に含まれる未知語の表記および読みを辞書に登録する処理をコンピュータに実行させる。   According to another aspect, the speech dictionary creation program acquires the first notation and the first reading corresponding to the notation and the reading of the character string, respectively, and corresponds to the first reading among the character strings in the first notation. Based on the reading of the characters in each of the first and second notations, extracting the characters to be removed that are presumed to have no part, creating the second notation by removing the characters to be removed from the first notation A temporary reading most similar to the first reading is selected as the second reading, and the notation corresponding to the second reading of the first notation and the second notation and the second reading are selected. Based on the above, the computer is caused to execute processing for registering the notation and reading of the unknown word included in the first notation in the dictionary.

本件開示の音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラムは、既存のデータを用いて辞書を作成する際に、表記と読みとの対応付けの精度を向上できる。   The speech dictionary creation device, the speech dictionary creation method, and the speech dictionary creation program of the present disclosure can improve the accuracy of association between notation and reading when creating a dictionary using existing data.

音声辞書作成装置および音声辞書作成方法の一実施形態を示す図である。It is a figure which shows one Embodiment of an audio dictionary creation apparatus and an audio dictionary creation method. 図1に示した抽出部の一例を示す図である。It is a figure which shows an example of the extraction part shown in FIG. 図1に示した音声辞書作成装置の動作原理の一例を示す図である。It is a figure which shows an example of the operation principle of the speech dictionary creation apparatus shown in FIG. マッチング動作の一例を示す図である。It is a figure which shows an example of matching operation | movement. 図1に示した音声辞書作成装置の動作の一例を示す図である。It is a figure which shows an example of operation | movement of the audio | voice dictionary creation apparatus shown in FIG. 図1に示した抽出部の動作の一例を示す図である。It is a figure which shows an example of operation | movement of the extraction part shown in FIG. 図1に示した選択部の動作の一例を示す図である。It is a figure which shows an example of operation | movement of the selection part shown in FIG. 不一致箇所の前後のマッチング関係から読みを推定する動作の一例を示す図である。It is a figure which shows an example of the operation | movement which estimates reading from the matching relationship before and behind a mismatching location. 図1に示した辞書登録部の動作の一例を示す図である。It is a figure which shows an example of operation | movement of the dictionary registration part shown in FIG. 図1に示した音声辞書作成装置のハードウエア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the audio | voice dictionary creation apparatus shown in FIG. 図1に示した音声辞書作成装置が搭載された音声対話システムの一例を示す図である。It is a figure which shows an example of the speech dialogue system carrying the speech dictionary creation apparatus shown in FIG.

以下、実施形態を図面を用いて説明する。   Hereinafter, embodiments will be described with reference to the drawings.

図1は、音声辞書作成装置および音声辞書作成方法の一実施形態を示している。この実施形態の音声辞書作成装置DSYSは、例えば、既存のデータベースDBから取得可能なデータを用いて、音声対話システム用の辞書DICTを作成する。既存のデータベースDBは、例えば、Webページや業務用のデータベースである。データベースDBから音声辞書作成装置DSYSに転送されるデータは、例えば、読み付きのデータ(表記データND10、読みデータRD10)である。   FIG. 1 shows an embodiment of a speech dictionary creation device and a speech dictionary creation method. The speech dictionary creation apparatus DSYS of this embodiment creates a dictionary DICT for a speech dialogue system using data that can be acquired from an existing database DB, for example. The existing database DB is, for example, a Web page or a business database. Data transferred from the database DB to the speech dictionary creation device DSYS is, for example, data with reading (notation data ND10, reading data RD10).

表記データND(ND10、ND20、ND30)は、文字列の表記を示すデータであり、読みデータRD(RD10、RD20、RD30、RDt1、RDt2)は、文字列の読みを示すデータである。以下、表記データNDの示す表記を表記NDとも称し、読みデータRDの示す読みを読みRDとも称する。   The notation data ND (ND10, ND20, ND30) is data indicating the notation of a character string, and the reading data RD (RD10, RD20, RD30, RDt1, RDt2) is data indicating the reading of a character string. Hereinafter, the notation indicated by the notation data ND is also referred to as notation ND, and the reading indicated by the reading data RD is also referred to as reading RD.

また、辞書DICTには、例えば、一般的な単語が予め登録されている。以下、辞書DICT等に予め登録されている単語を既知語とも称する。また、既知語以外の単語を未知語とも称する。なお、一般的な単語は、辞書DICTとは別の辞書に予め登録されてもよい。   In addition, for example, general words are registered in the dictionary DICT in advance. Hereinafter, a word registered in the dictionary DICT or the like in advance is also referred to as a known word. A word other than the known word is also referred to as an unknown word. Note that general words may be registered in advance in a dictionary different from the dictionary DICT.

音声辞書作成装置DSYSは、例えば、入力部INP、抽出部EXTR、表記作成部NGEN、選択部SELおよび辞書登録部REGPを有している。入力部INPは、文字列の表記および読みにそれぞれ対応する第1表記(表記ND10)および第1読み(読みRD10)を取得する入力部の一例である。例えば、入力部INPは、処理対象の文字列の表記データND10および読みデータRD10を含むデータを、データベースDBから取得する。そして、入力部INPは、表記データND10および読みデータRD10を、抽出部EXTR、表記作成部NGENに転送する。   The speech dictionary creation device DSYS has, for example, an input unit INP, an extraction unit EXTR, a notation creation unit NGEN, a selection unit SEL, and a dictionary registration unit REGP. The input unit INP is an example of an input unit that acquires a first notation (notation ND10) and a first reading (reading RD10) corresponding to the notation and reading of a character string, respectively. For example, the input unit INP acquires data including notation data ND10 and reading data RD10 of the character string to be processed from the database DB. Then, the input unit INP transfers the notation data ND10 and the reading data RD10 to the extraction unit EXTR and the notation creation unit NGEN.

抽出部EXTRは、第1表記(表記ND10)中の文字列のうち、第1読み(読みRD10)に対応する部分がないと推定される除去対象の文字を抽出する抽出部の一例である。例えば、抽出部EXTRは、表記ND10に対して形態素解析等の文字解析を実行し、読みに表れない可能性のある単語(除去対象の文字)を抽出する。例えば、飲食店の情報を集めたデータベースでは、別の文字種で同一の読みの表記が並ぶ単語、宣伝用の単語、定型文の単語等が、読みに表れない場合がある。   The extraction unit EXTR is an example of an extraction unit that extracts characters to be removed that are estimated to have no portion corresponding to the first reading (reading RD10) in the character string in the first notation (notation ND10). For example, the extraction unit EXTR performs character analysis such as morphological analysis on the notation ND10, and extracts words (characters to be removed) that may not appear in reading. For example, in a database that collects restaurant information, words with the same reading notation arranged in different character types, words for advertisement, words of fixed phrases, etc. may not appear in reading.

この場合、例えば、抽出部EXTRは、表記ND10を参照して、別の文字種で同一の読みの表記が並ぶ単語、宣伝用の単語、定型文の単語を検索する。そして、抽出部EXTRは、別の文字種で同一の読みの表記が並ぶ単語、宣伝用の単語、定型文の単語のいずれかを表記ND10から検出した場合、検出した単語を除去対象の文字として抽出する。   In this case, for example, with reference to the notation ND10, the extraction unit EXTR searches for a word in which the same reading notation is arranged in another character type, a word for advertisement, and a word of a fixed phrase. Then, when the extraction unit EXTR detects from the notation ND10 a word in which the same reading notation is arranged in another character type, a word for advertisement, or a word of a fixed sentence, it extracts the detected word as a character to be removed To do.

このように、抽出部EXTRは、形態素解析等の文字解析を実行し、表記ND10中の文字列のうち、読みRD10に対応する部分がないと推定される除去対象の文字を抽出する。そして、抽出部EXTRは、抽出結果を示す抽出データED10を、表記作成部NGENに出力する。例えば、抽出データED10には、文字解析等の結果を示すデータ、除去対象の文字を示すデータ等が含まれる。   In this manner, the extraction unit EXTR performs character analysis such as morphological analysis, and extracts characters to be removed that are estimated to have no portion corresponding to the reading RD10 from the character string in the notation ND10. Then, the extraction unit EXTR outputs the extraction data ED10 indicating the extraction result to the notation creation unit NGEN. For example, the extracted data ED10 includes data indicating a result of character analysis, data indicating a character to be removed, and the like.

表記作成部NGENは、除去対象の文字を第1表記(表記ND10)から除去した第2表記(表記ND20)を作成する作成部の一例である。例えば、表記作成部NGENは、表記データND10、読みデータRD10および抽出データED10を受ける。そして、表記作成部NGENは、抽出データED10が示す除去対象の文字を表記ND10から除去して表記ND20を作成する。作成された表記データND20は、表記ND20に対応する仮の読みデータRDt2とともに、選択部SELに転送される。   The notation creation unit NGEN is an example of a creation unit that creates a second notation (notation ND20) obtained by removing characters to be removed from the first notation (notation ND10). For example, the notation creation unit NGEN receives the notation data ND10, the reading data RD10, and the extraction data ED10. Then, the notation creation unit NGEN removes the character to be removed indicated by the extracted data ED10 from the notation ND10 and creates the notation ND20. The created notation data ND20 is transferred to the selection unit SEL together with the provisional reading data RDt2 corresponding to the notation ND20.

例えば、表記作成部NGENは、表記データND10、仮の読みデータRDt1、表記データND20および仮の読みデータRDt2を、選択部SELに転送する。仮の読みRDt1(仮の読みデータRDt1が示す読み)は、例えば、表記ND10の読みの候補である。   For example, the notation creation unit NGEN transfers the notation data ND10, the provisional reading data RDt1, the notation data ND20, and the provisional reading data RDt2 to the selection unit SEL. The temporary reading RDt1 (reading indicated by the temporary reading data RDt1) is, for example, a reading candidate for the notation ND10.

表記ND10の仮の読みRDt1は、例えば、別の文字種で同一の読みの表記が並ぶ単語を検索する際に抽出部EXTRで生成されている。この場合、表記ND10に対応する仮の読みデータRDt1は、抽出データED10に含まれている。なお、表記作成部NGENは、1つの表記ND10に対して複数の仮の読みRDt1が存在する場合、複数の仮の読みRDt1を対応付けた表記ND10を作成する。   The provisional reading RDt1 of the notation ND10 is generated by the extraction unit EXTR, for example, when searching for words in which the same reading notation is arranged in different character types. In this case, provisional reading data RDt1 corresponding to the notation ND10 is included in the extracted data ED10. The notation creation unit NGEN creates a notation ND10 in which a plurality of provisional readings RDt1 are associated with each other when there are a plurality of provisional readings RDt1.

仮の読みRDt2(仮の読みデータRDt2が示す読み)は、表記ND20の読みの候補である。例えば、表記作成部NGENは、除去対象の文字に対応する仮の読みを仮の読みRDt1から除去して仮の読みRDt2を生成する。なお、表記作成部NGENは、1つの表記ND20に対して複数の仮の読みRDt2が存在する場合、複数の仮の読みRDt2を対応付けた表記ND20を作成する。   The provisional reading RDt2 (the reading indicated by the provisional reading data RDt2) is a candidate for reading of the notation ND20. For example, the notation creation unit NGEN removes the temporary reading corresponding to the character to be removed from the temporary reading RDt1 to generate the temporary reading RDt2. Note that when there are a plurality of provisional readings RDt2 for one notation ND20, the notation creation unit NGEN creates a notation ND20 in which a plurality of provisional readings RDt2 are associated.

このように、表記作成部NGENは、複数の表記ND(ND10、ND20)を作成する。したがって、各表記ND(ND10、ND20)中の文字の読みに基づいて生成される仮の読みRDt(RDt1、RDt2)も複数生成される。   Thus, the notation creation unit NGEN creates a plurality of notations ND (ND10, ND20). Therefore, a plurality of provisional readings RDt (RDt1, RDt2) generated based on the reading of characters in each notation ND (ND10, ND20) are also generated.

選択部SELは、第1読み(読みRD10)に最も類似する仮の読み(仮の読みRDt1、RDt2)を第2読み(読みRD20)として選択する選択部の一例である。なお、例えば、読みRD10に一致する仮の読みRDt(RDt1、RDt2)が存在する場合、読みRD10に最も類似する仮の読みRDtは、読みRD10に一致する仮の読みRDtである。選択部SELは、例えば、マッチング部MATおよび判定部JUDGを有している。   The selection unit SEL is an example of a selection unit that selects a temporary reading (provisional readings RDt1 and RDt2) most similar to the first reading (reading RD10) as the second reading (reading RD20). For example, when there is a provisional reading RDt (RDt1, RDt2) that matches the reading RD10, the provisional reading RDt that is most similar to the reading RD10 is the provisional reading RDt that matches the reading RD10. The selection unit SEL includes, for example, a matching unit MAT and a determination unit JUDG.

マッチング部MATは、例えば、読みデータRD10、表記データND10、仮の読みデータRDt1、表記データND20および仮の読みデータRDt2を、表記作成部NGENから受ける。なお、マッチング部MATは、読みデータRD10を入力部INPから受けてもよい。そして、マッチング部MATは、例えば、読みRD10と仮の読みRDt1とのDPマッチング、および、読みRD10と仮の読みRDt2とのDPマッチングを実行する。DPマッチングは、両パターンが最もよく一致するように、比較対象の一方の時間軸を非線形に伸縮しながら照合するマッチングである。   For example, the matching unit MAT receives the reading data RD10, the notation data ND10, the provisional reading data RDt1, the notation data ND20, and the provisional reading data RDt2 from the notation creation unit NGEN. Note that the matching unit MAT may receive the reading data RD10 from the input unit INP. Then, for example, the matching unit MAT performs DP matching between the reading RD10 and the provisional reading RDt1, and DP matching between the reading RD10 and the provisional reading RDt2. DP matching is matching in which one time axis to be compared is nonlinearly expanded and contracted so that both patterns are best matched.

このように、マッチング部MATは、除去対象の文字を残した表記ND10と除去対象の文字を除去した表記ND20との両方で、読みRD10に対するマッチングを実行する。そして、マッチング部MATは、各マッチングの結果を判定部JUDGに出力する。例えば、マッチング部MATは、類似度を示すコストを、判定部JUDGに出力する。マッチングのコストは、例えば、類似度が高くなるほど値が小さくなる。   As described above, the matching unit MAT performs matching on the reading RD10 by using both the notation ND10 in which the removal target character is left and the notation ND20 in which the removal target character is removed. Then, matching unit MAT outputs the result of each matching to determination unit JUDG. For example, the matching unit MAT outputs a cost indicating the similarity to the determination unit JUDG. For example, the matching cost decreases as the degree of similarity increases.

判定部JUDGは、例えば、読みRD10に最も類似する仮の読みRDt1、RDt2を、読みRD20として選択する。例えば、判定部JUDGは、マッチングのコストが最小な仮の読みを、読みRD20として選択する。そして、判定部JUDGは、例えば、表記ND10、ND20のうちの読みRD20に対応する表記NDと、読みRD20とを辞書登録部REGPに通知する。例えば、判定部JUDGは、表記NDに読みRD20を対応付けた際の情報を、辞書登録部REGPに出力する。   For example, the determination unit JUDG selects the temporary readings RDt1 and RDt2 that are most similar to the reading RD10 as the reading RD20. For example, the determination unit JUDG selects a provisional reading with the lowest matching cost as the reading RD20. Then, for example, the determination unit JUDG notifies the dictionary registration unit REGP of the notation ND corresponding to the reading RD20 of the notations ND10 and ND20 and the reading RD20. For example, the determination unit JUDG outputs information when the reading RD 20 is associated with the notation ND to the dictionary registration unit REGP.

このように、選択部SELは、表記ND10、ND20の各表記中の文字の読みに基づいて生成される複数の仮の読みRDt(RDt1、RDt2)から、読みRD10に最も類似する仮の読みRDtを読みRD20として選択する。   As described above, the selection unit SEL selects the provisional reading RDt most similar to the reading RD10 from the plurality of provisional readings RDt (RDt1, RDt2) generated based on the reading of the characters in the notations ND10 and ND20. Is selected as RD20.

辞書登録部REGPは、第1表記(表記ND10)に含まれる未知語の表記および読みを辞書DICTに登録する登録部の一例である。例えば、辞書登録部REGPは、読みRD20に対応する表記データNDと、読みデータRD20とを判定部JUDGから受ける。そして、辞書登録部REGPは、表記ND10に含まれる未知語のうち、表記と読みとが対応付けされた未知語を辞書DICTに登録する。   The dictionary registration unit REGP is an example of a registration unit that registers the notation and reading of an unknown word included in the first notation (notation ND10) in the dictionary DICT. For example, the dictionary registration unit REGP receives the notation data ND corresponding to the reading RD20 and the reading data RD20 from the determination unit JUDG. Then, the dictionary registration unit REGP registers, in the dictionary DICT, unknown words associated with notation and reading among unknown words included in the notation ND10.

例えば、辞書登録部REGPは、表記NDに読みRD20を対応付けた際の情報を判定部JUDGから受ける。なお、辞書登録部REGPは、表記NDに読みRD20を対応付けた際の情報を抽出部EXTRから受けてもよい。辞書登録部REGPは、例えば、表記NDに読みRD20を対応付けた際の情報に基づいて、表記ND中の文字が読みRD20のどの部分に対応するのか特定できる。   For example, the dictionary registration unit REGP receives information from the determination unit JUDG when the reading RD 20 is associated with the notation ND. The dictionary registration unit REGP may receive information from the extraction unit EXTR when the reading RD 20 is associated with the notation ND. For example, the dictionary registration unit REGP can identify which part of the reading RD 20 the character in the writing ND corresponds to based on information when the reading RD 20 is associated with the writing ND.

例えば、辞書登録部REGPは、表記NDに含まれる未知語の表記ND30に対応付けされた読みRD30を特定する。そして、辞書登録部REGPは、未知語の表記データND30および読みデータRD30を、辞書DICTに出力する。このように、辞書登録部REGPは、表記ND10、ND20のうちの読みRD20に対応する表記NDと読みRD20とに基づいて、表記ND10に含まれる未知語の表記ND30および読みRD30を辞書DICTに登録する。   For example, the dictionary registration unit REGP specifies the reading RD30 associated with the unknown word notation ND30 included in the notation ND. Then, the dictionary registration unit REGP outputs the unknown word notation data ND30 and the reading data RD30 to the dictionary DICT. Thus, the dictionary registration unit REGP registers the notation ND30 and the reading RD30 of the unknown word included in the notation ND10 in the dictionary DICT based on the notation ND20 and the reading RD20 corresponding to the reading RD20 of the notations ND10 and ND20. To do.

なお、辞書登録部REGPは、別の文字種で、かつ同一の読みで並ぶ2つの単語の一方が除去対象の文字として抽出され、2つの単語の他方が辞書DICTに登録される場合、2つの単語の一方の表記ND30および読みRD30を辞書DICTに登録してもよい。   Note that the dictionary registration unit REGP extracts two words when one of two words of different character types and arranged in the same reading is extracted as a character to be removed and the other of the two words is registered in the dictionary DICT. ND30 and reading RD30 may be registered in the dictionary DICT.

また、辞書登録部REGPは、例えば、読みRD20が読みRD10と一致していない場合、不一致部分に対応する表記の読みを、読みRD10に基づいて推定してもよい。このように、辞書登録部REGPは、読みRD10、RD20の少なくとも一方と、表記ND10、ND20のうちの読みRD20に対応する表記NDとに基づいて、表記ND10に含まれる未知語の表記ND30および読みRD30を辞書DICTに登録する。   Further, for example, when the reading RD20 does not match the reading RD10, the dictionary registration unit REGP may estimate the reading of the notation corresponding to the mismatched portion based on the reading RD10. As described above, the dictionary registration unit REGP, based on at least one of the readings RD10 and RD20 and the notation ND corresponding to the reading RD20 among the notations ND10 and ND20, the notation ND30 and the reading of the unknown word included in the notation ND10. Register RD30 in dictionary DICT.

なお、音声辞書作成装置DSYSの構成は、この例に限定されない。例えば、音声辞書作成装置DSYSは、登録できなかった未知語の表記や読みをディスプレイ等に出力する出力部を有してもよい。   Note that the configuration of the speech dictionary creation apparatus DSYS is not limited to this example. For example, the speech dictionary creation device DSYS may include an output unit that outputs a notation or reading of an unknown word that could not be registered to a display or the like.

図2は、図1に示した抽出部EXTRの一例を示している。抽出部EXTRは、例えば、文字解析部ANALY、読み推定部PRED、連続表記抽出部CEXT、パターン記憶部PMEMおよびパターン抽出部PEXTを有している。   FIG. 2 shows an example of the extraction unit EXTR shown in FIG. The extraction unit EXTR includes, for example, a character analysis unit ANALY, a reading estimation unit PRED, a continuous notation extraction unit CEXT, a pattern storage unit PMEM, and a pattern extraction unit PEXT.

文字解析部ANALYは、例えば、表記データND10および読みデータRD10を受ける。そして、文字解析部ANALYは、形態素解析等を実行し、表記ND10の文字解析を実行する。なお、文字解析部ANALYは、スペース区切り、記号(カッコ、”&”等)区切り、文字種境界等に基づいて、表記ND10中の文字列を区切ってもよい。文字種は、例えば、ひらがな、カタカナ、漢字、英字等である。   For example, the character analysis unit ANALY receives the notation data ND10 and the reading data RD10. Then, the character analysis unit ANALY performs morphological analysis and the like, and performs character analysis of the notation ND10. Note that the character analysis unit ANALY may delimit the character string in the notation ND10 based on a space delimiter, a symbol (parentheses, “&”, etc.) delimiter, a character type boundary, and the like. The character type is, for example, hiragana, katakana, kanji, or English.

読み推定部PREDは、例えば、文字解析部ANALYの文字解析により区切られた単語に仮の読みを対応付ける。例えば、読み推定部PREDは、辞書DICTを参照して、単語に仮の読みを割り当てる。なお、読み推定部PREDは、未知の単語に対しては、単漢字の読み、ローマ字読み、アルファベット読み、フォニックス等を用いて、仮の読みを割り当てる。   For example, the reading estimation unit PRED associates a temporary reading with words separated by character analysis of the character analysis unit ANALY. For example, the reading estimation unit PRED refers to the dictionary DICT and assigns a temporary reading to the word. Note that the reading estimation unit PRED assigns a temporary reading to an unknown word using single kanji reading, romaji reading, alphabet reading, phonics, or the like.

連続表記抽出部CEXTは、表記ND10中の文字列のうち、別の文字種で同一の読みの表記が並ぶ単語の一方を、除去対象の文字として抽出する。例えば、連続表記抽出部CEXTは、文字解析により区切られた単語と仮の読みとに基づいて、別の文字種で同一の読みの表記が並ぶ単語を検索する。そして、連続表記抽出部CEXTは、例えば、別の文字種で同一の読みの表記が並ぶ単語を検出した場合、検出した2つの単語(並んでいる単語)のうち、後の方の単語を、除去対象の文字として抽出する。なお、連続表記抽出部CEXTは、検出した2つの単語(並んでいる単語)のうち、前の方の単語を、除去対象の文字として抽出してもよい。   The continuous notation extraction unit CEXT extracts, as a character to be removed, one of the words in the notation ND10 in which the same reading notation is arranged in another character type. For example, the continuous notation extraction unit CEXT searches for words in which the same reading notation is arranged in different character types based on the words separated by character analysis and the provisional reading. Then, for example, when the continuous notation extraction unit CEXT detects a word in which the same reading notation is arranged in different character types, the subsequent word is removed from the two detected words (words in line). Extract as target character. Note that the continuous notation extraction unit CEXT may extract the earlier word of the detected two words (words lined up) as a character to be removed.

例えば、飲食店の情報を集めたデータベースDBでは、別の文字種で同一の読みの表記が並ぶ単語、宣伝用の単語、定型文の単語等が、読みに表れない場合がある。例えば、表記ND10が「居酒屋 丸丸 marumaru」で、読みRD10が「イザカヤ マルマル」の場合、「丸丸」および「marumaru」の一方は、読みRD10内に対応する部分がない。すなわち、表記ND10のうち、「丸丸」および「marumaru」の一方は、読みRD10に表れない。この場合、連続表記抽出部CEXTは、「丸丸」および「marumaru」の一方(例えば、「marumaru」)を、除去対象の文字として抽出する。   For example, in a database DB that collects information on restaurants, there are cases where words with the same reading notation arranged in different character types, promotional words, fixed-word words, etc. do not appear in reading. For example, when the notation ND10 is “Izakaya Marumaru marumaru” and the reading RD10 is “Izakaya Marumaru”, one of “Marumaru” and “marumaru” has no corresponding part in the reading RD10. That is, in the notation ND10, one of “maru” and “maramaru” does not appear in the reading RD10. In this case, the continuous notation extracting unit CEXT extracts one of “marumaru” and “maramaru” (for example, “maramaru”) as a character to be removed.

例えば、表記ND10が「居酒屋 丸丸 marumaru」で、読みRD10が「イザカヤ マルマル」の場合、「イザカヤ マルマル マルマル」が表記ND10の仮の読みRDt1の1つとして割り当てられる。したがって、連続表記抽出部CEXTは、「丸丸」および「marumaru」を、別の文字種(漢字と英字)で同一の読みの表記が並ぶ単語として検出する。そして、連続表記抽出部CEXTは、検出した2つの単語のうちの後の方の単語である「marumaru」を、除去対象の文字として抽出する。   For example, when the notation ND10 is “Izakaya Marumaru marumaru” and the reading RD10 is “Izakaya Marumaru”, “Izakaya Marumaru Marumaru” is assigned as one of the provisional readings RDt1 of the notation ND10. Therefore, the continuous notation extraction unit CEXT detects “Marumaru” and “marumaru” as words in which the same reading notation is arranged in different character types (kanji and English). Then, the continuous notation extraction unit CEXT extracts “marumaru”, which is a later word of the two detected words, as a character to be removed.

パターン記憶部PMEMは、例えば、宣伝用の単語、定型文の単語等を予め記憶している。例えば、パターン記憶部PMEMは、宣伝用の単語、定型文の単語等が予め登録されている除去リストを記憶している。なお、宣伝用の単語は、例えば、特徴的なパターンの文字列(例えば、アスタリスク(*)や星印で囲まれた文字列)として、除去リストに予め登録されている。また、定型文の単語として、例えば、「中華料理」、「焼き肉」等の料理ジャンルを示す単語、「○○店」等の地名・道路名・建物名+支店名を示す単語等が除去リストに予め登録されている。   The pattern storage unit PMEM stores, for example, advertising words, fixed phrases, and the like in advance. For example, the pattern storage unit PMEM stores a removal list in which advertising words, fixed phrase words, and the like are registered in advance. The advertising word is registered in advance in the removal list, for example, as a character string of a characteristic pattern (for example, a character string surrounded by an asterisk (*) or an asterisk). Also, for example, words indicating a cooking genre such as “Chinese cuisine” and “Yakiniku”, a word indicating a place name / road name / building name + branch name such as “XX shop”, etc., as removal words Registered in advance.

パターン抽出部PEXTは、表記ND10中の文字列のうち、パターン記憶部PMEMに記憶されている単語(宣伝用の単語、定型文の単語等)を、除去対象の文字として抽出する。例えば、表記ND10が「富士食堂 *○○駅方面 橋渡ってすぐ*」で、読みRD10が「フジショクドウ」の場合、宣伝用の単語である「*○○駅方面 橋渡ってすぐ*」は、読みRD10内に対応する部分がない。   The pattern extraction unit PEXT extracts words (promotional words, fixed phrases, etc.) stored in the pattern storage unit PMEM from the character string in the notation ND10 as characters to be removed. For example, if the notation ND10 is “Fuji Shokudo ** Immediately across the bridge across the station” and the reading RD10 is “Fujishoku Dou”, then the advertising word “Immediately across the bridge across the station” is “ There is no corresponding part in the reading RD10.

すなわち、表記ND10のうち、「*○○駅方面 橋渡ってすぐ*」は、読みRD10に表れない。また、パターン記憶部PMEMは、例えば、アスタリスク(*)で囲まれた文字列が宣伝用の単語であることを示す除去リストを、記憶している。この場合、パターン抽出部PEXTは、表記ND10中の文字列のうち、パターン記憶部PMEMに記憶されている特徴的なパターンの文字列に当てはまる「*○○駅方面 橋渡ってすぐ*」を、除去対象の文字として抽出する。   In other words, among the notation ND10, “* immediately after the bridge crossing over the station” does not appear in the reading RD10. Further, the pattern storage unit PMEM stores, for example, a removal list indicating that a character string surrounded by asterisks (*) is a word for advertising. In this case, the pattern extraction unit PEXT selects “* ○○ station direction immediately across the bridge *” that applies to the character string of the characteristic pattern stored in the pattern storage unit PMEM among the character strings in the notation ND10. Extract as characters to be removed.

また、例えば、表記ND10が「富士食堂 鹿島田店」で、読みRD10が「フジショクドウ」の場合、定型文の単語である「鹿島田店」は、読みRD10内に対応する部分がない。すなわち、表記ND10のうち、「鹿島田店」は、読みRD10に表れない。また、例えば、パターン記憶部PMEMに記憶されている除去リストには、定型文の単語として、地名「鹿島田」が登録されている。この場合、パターン抽出部PEXTは、表記ND10中の文字列のうち、パターン記憶部PMEMに記憶されている定型文の単語である地名+支店名の「鹿島田店」を、除去対象の文字として抽出する。   Further, for example, when the notation ND10 is “Fuji Shokudo Kashimada store” and the reading RD10 is “Fujishoku Dou”, the word “Kashimada store”, which is a fixed phrase, has no corresponding part in the reading RD10. That is, in the notation ND10, “Kashimada store” does not appear in the reading RD10. Further, for example, in the removal list stored in the pattern storage unit PMEM, the place name “Kashimada” is registered as a word of a fixed phrase. In this case, the pattern extraction unit PEXT extracts “Kashimada branch” of the place name + branch name, which is a fixed phrase word stored in the pattern storage unit PMEM, as a character to be removed from the character string in the notation ND10. To do.

このように、抽出部EXTRは、形態素解析等の文字解析を実行し、表記ND10中の文字列のうち、読みRD10に対応する部分がないと推定される除去対象の文字を抽出する。そして、抽出部EXTRは、抽出結果を示す抽出データED10を、表記作成部NGENに出力する。例えば、抽出データED10には、文字解析等の結果を示すデータ、除去対象の文字を示すデータ等が含まれる。   In this manner, the extraction unit EXTR performs character analysis such as morphological analysis, and extracts characters to be removed that are estimated to have no portion corresponding to the reading RD10 from the character string in the notation ND10. Then, the extraction unit EXTR outputs the extraction data ED10 indicating the extraction result to the notation creation unit NGEN. For example, the extracted data ED10 includes data indicating a result of character analysis, data indicating a character to be removed, and the like.

なお、抽出部EXTRの構成は、この例に限定されない。例えば、宣伝用の単語や定型文の単語を除去対象としない場合、パターン記憶部PMEMおよびパターン抽出部PEXTは、省かれてもよい。また、例えば、別の文字種で同一の読みの表記が並ぶ単語を除去対象の文字としない場合、読み推定部PREDおよび連続表記抽出部CEXTは、省かれてもよい。この場合、例えば、表記作成部NGENは、読み推定部PREDを有してもよい。   Note that the configuration of the extraction unit EXTR is not limited to this example. For example, when the word for advertisement and the word of the fixed phrase are not targeted for removal, the pattern storage unit PMEM and the pattern extraction unit PEXT may be omitted. In addition, for example, in the case where words with the same reading notation arranged in different character types are not the characters to be removed, the reading estimation unit PRED and the continuous notation extraction unit CEXT may be omitted. In this case, for example, the notation creation unit NGEN may include a reading estimation unit PRED.

あるいは、抽出部EXTRは、例えば、一般的な単語が辞書DICTとは別の辞書に予め登録されている場合、一般的な単語が登録されている辞書を有してもよい。また、抽出部EXTRは、表記データND10および読みデータRD10のうち、表記データND10のみを受けてもよい。   Alternatively, the extraction unit EXTR may include a dictionary in which general words are registered, for example, when general words are registered in advance in a dictionary different from the dictionary DICT. Further, the extraction unit EXTR may receive only the notation data ND10 out of the notation data ND10 and the reading data RD10.

図3は、図1に示した音声辞書作成装置DSYSの動作原理の一例を示している。なお、図3は、表記ND10が「楽飲み屋 丸丸 marumaru」で、読みRD10が「ラクノミヤ マルマル」の場合を示している。   FIG. 3 shows an example of the operating principle of the speech dictionary creation device DSYS shown in FIG. Note that FIG. 3 shows a case where the notation ND10 is “Rakubara Marumaru” and the reading RD10 is “Rakunomiya Marumaru”.

音声辞書作成装置DSYSは、例えば、単語抽出および表記作成により、表記ND10中の文字に対して仮の読みRDt1を対応付ける。例えば、「楽」に対して「ラク」、「ガク」・・・、「飲み」に対して「ノミ」、「インミ」・・・、「屋」に対して「ヤ」、「オク」・・・、「丸」に対して「マル」、「ガン」・・・が対応付けられる。また、「marumaru」に対して「マルマル」、「エムエーアールユー・・・」・・・が対応付けられる。   The speech dictionary creation device DSYS associates the tentative reading RDt1 with the character in the notation ND10 by, for example, word extraction and notation creation. For example, “Raku” for “Raku”, “Gaku” ..., “Flea” for “Drink”, “Inmi” ..., “Ya”, “Oku” for “Ya”, etc. .. “Maru”, “Gun”... Are associated with “Maru”. In addition, “marmaru” is associated with “Marmaru”, “M.U.

同様に、音声辞書作成装置DSYSは、例えば、単語抽出および表記作成により、表記ND20中の文字に対して仮の読みRDt2を対応付ける。例えば、「丸丸」と「marumaru」は同一の読みと判定され、除去対象の文字として「marumaru」が抽出される。そして、表記ND10中の文字列から除去対象の文字「marumaru」を除去した「楽飲み屋 丸丸」が表記ND20として作成される。例えば、表記ND20中の文字「楽」、「飲み」、「屋」、「丸」に対応付けられる仮の読みRDt2は、表記ND10中の「楽飲み屋 丸丸」の部分の仮の読みRDt1と同様である。   Similarly, the speech dictionary creation device DSYS associates the provisional reading RDt2 with the characters in the notation ND20 by, for example, word extraction and notation creation. For example, “marumaru” and “marumaru” are determined to be the same reading, and “marumaru” is extracted as a character to be removed. Then, “Rakutakuya Marumaru” is created as the notation ND20 by removing the character “mararumaru” to be removed from the character string in the notation ND10. For example, the provisional reading RDt2 associated with the characters “Easy”, “Drink”, “Ya”, and “Maru” in the notation ND20 is the same as the provisional reading RDt1 of the “Raku drinking shop Marumaru” in the notation ND10 It is.

そして、音声辞書作成装置DSYSは、仮の読みRDt1と読みRD10とのマッチング、および、仮の読みRDt2と読みRD10とのマッチングを実行する。このように、音声辞書作成装置DSYSは、表記ND10に仮の読みRDt1を対応付けてマッチングする処理と、表記ND20に仮の読みRDt2を対応付けてマッチングする処理とを実行する。そして、音声辞書作成装置DSYSは、各マッチングの結果を判定し、読みRD10に最もマッチする読みRD20と表記NDの組み合わせに基づいて、未知語の表記ND30と読みRD30を辞書DICTに登録する。   Then, the speech dictionary creation device DSYS executes matching between the temporary reading RDt1 and the reading RD10, and matching between the temporary reading RDt2 and the reading RD10. As described above, the speech dictionary creation device DSYS executes a process of matching the notation ND10 with the provisional reading RDt1 and a process of matching the notation ND20 with the provisional reading RDt2. Then, the speech dictionary creation device DSYS determines each matching result, and registers the unknown word notation ND30 and the reading RD30 in the dictionary DICT based on the combination of the reading RD20 and the notation ND that most closely matches the reading RD10.

例えば、読みRD10が「ラクノミヤ マルマル」の場合、読みRD10に最もマッチする仮の読みは、表記ND20に対応付けされた仮の読みRDt2の1つである「ラクノミヤ マルマル」である。この場合、「楽飲み屋」と「ラクノミヤ」のペア(表記ND30a、読みRD30a)と、「丸丸」と「マルマル」のペア(表記ND30b、読みRD30b)とが辞書DICTに登録される。また、音声辞書作成装置DSYSは、「marumaru」の読みを「丸丸」と同一と判定しているため、除去対象の文字の表記ND30cと読みRD30cのペア(「marumaru」、「マルマル」)も辞書DICTに登録してもよい。   For example, when the reading RD10 is “Rakunomiya Marumaru”, the provisional reading that most closely matches the reading RD10 is “Rakunomiya Marumaru” which is one of the provisional readings RDt2 associated with the notation ND20. In this case, a pair of “Rakubara” and “Rakunomiya” (notation ND30a, reading RD30a) and a pair of “Marumaru” and “Marumaru” (notation ND30b, reading RD30b) are registered in the dictionary DICT. Further, since the speech dictionary creating apparatus DSYS determines that the reading of “marumaru” is the same as “marumaru”, the pair of the notation ND30c and the reading RD30c of the character to be removed (“marumaru”, “Marumaru”) is also a dictionary. You may register with DICT.

ここで、例えば、表記ND20に仮の読みRDt2を対応付けてマッチングする処理が実行されない方法では、表記ND10に対応する仮の読みRDt1と読みRD10とのマッチングの結果に基づいて、未知語の表記と読みが辞書DICTに登録される。このため、表記「丸丸 marumaru」に仮の読み「マルマル」が対応付けられ、「丸丸 marumaru」と「マルマル」のペアが辞書DICTに登録されるおそれがある。また、例えば、表記ND10が「富士食堂 鹿島田店」で、読みRD10が「フジショクドウ」の場合、表記ND20を用いない方法では、「富士食堂 鹿島田店」と「フジショクドウ」のペアが辞書DICTに登録されるおそれがある。   Here, for example, in a method in which the process of matching the provisional reading RDt2 with the notation ND20 is not performed, the unknown word notation is based on the result of the matching between the provisional reading RDt1 and the reading RD10 corresponding to the notation ND10. And the reading are registered in the dictionary DICT. For this reason, the notation “Marumaru marumaru” is associated with the provisional reading “Marmaru”, and a pair of “Marumaru marumaru” and “Marmaru” may be registered in the dictionary DICT. Also, for example, when the notation ND10 is “Fuji Shokudo Kashimada store” and the reading RD10 is “Fujishoku Dou”, in the method not using the notation ND20, a pair of “Fuji Shokudo Kashimada store” and “Fujishoku Dou” is registered in the dictionary DICT. There is a risk.

これに対し、音声辞書作成装置DSYSは、図2で説明したように、「鹿島田店」を定型文の単語として抽出する。そして、音声辞書作成装置DSYSは、表記ND10中の文字列から「鹿島田店」を除去した表記ND20である「富士食堂」に仮の読みRDt2として「フジショクドウ」を対応付ける。これにより、音声辞書作成装置DSYSは、「富士食堂」と「フジショクドウ」のペアを辞書DICTに登録できる。なお、「鹿島田店」は、読みRD10内に対応する読みがないため、辞書DICTに登録されない。   On the other hand, as described with reference to FIG. 2, the speech dictionary creation device DSYS extracts “Kashimada store” as a fixed phrase word. Then, the speech dictionary creation device DSYS associates “Fujishoku Dou” as a temporary reading RDt2 with “Fuji Shokudo” which is the notation ND20 obtained by removing “Kashimada store” from the character string in the notation ND10. As a result, the voice dictionary creation device DSYS can register a pair of “Fuji Shokudo” and “Fujishokudo” in the dictionary DICT. Note that “Kashimada store” is not registered in the dictionary DICT because there is no corresponding reading in the reading RD10.

このように、音声辞書作成装置DSYSでは、表記ND10と読みRD10との対応に不一致が生じている場合でも、除去対象の文字を除去した表記ND20を作成して仮の読みRDt2を対応付けるため、表記と読みとの対応付けの精度を向上できる。すなわち、音声辞書作成装置DSYSは、既存のデータ(表記ND10と読みRD10とのペア)を用いて辞書を作成する際に、表記と読みとの対応付けの精度を向上できる。   As described above, the speech dictionary creation device DSYS creates the notation ND20 from which the character to be removed is removed and associates the provisional reading RDt2 even when there is a mismatch in the correspondence between the notation ND10 and the reading RD10. The accuracy of correspondence between reading and reading can be improved. That is, the speech dictionary creation device DSYS can improve the accuracy of association between notation and reading when creating a dictionary using existing data (a pair of the notation ND10 and the reading RD10).

図4は、マッチング動作の一例を示している。なお、図4は、DPマッチングを用いたときのマッチング動作の一例を示している。DPマッチングは、両パターンが最もよく一致するように、比較対象の一方の時間軸を非線形に伸縮しながら照合するマッチングである。図4の例では、不一致の場合のコストを”3”とし、字が1つずれる場合のコストを”1”として、マッチングのコストを計算する。   FIG. 4 shows an example of the matching operation. FIG. 4 shows an example of the matching operation when DP matching is used. DP matching is matching in which one time axis to be compared is nonlinearly expanded and contracted so that both patterns are best matched. In the example of FIG. 4, the cost of matching is calculated with “3” as the cost when there is a mismatch and “1” when the character is shifted by one.

図4の実際の表記ND10および実際の読みRD10は、図1に示した入力部INPがデータベースDBから取得した表記ND10および読みRD10を示している。例えば、実際の表記ND10は、「楽飲み屋富士食堂」であり、実際の読みRD10は、「ラクノミヤフジショクドウ」である。仮の読みRDt1は、例えば、表記ND10中の各文字に対応する「ラク、ガク・・・」、「ノ、イン・・・」、「ミ」、「ヤ、オク・・・」、「フ、トミ・・・」、「ジ、シ・・・」、「ショク、タ、ク・・・」、「ドウ」の組み合わせである。   The actual notation ND10 and the actual reading RD10 in FIG. 4 indicate the notation ND10 and the reading RD10 acquired from the database DB by the input unit INP shown in FIG. For example, the actual notation ND10 is “Rakutakuya Fuji Shokudo”, and the actual reading RD10 is “Rakunomiyafujishokudo”. The provisional reading RDt1 is, for example, “Raku, Gaku ...”, “No, In ...”, “Mi”, “Ya, Ok ...”, “F” corresponding to each character in the notation ND10. , Tomi ... "," Ji, Shi ... "," Shoku, Ta, Ku ... "," Dou ".

マッチングの例として、「ラクノミヤフジショクドウ」、「ガクノミヤフジショクドウ」、「ラクノミオクフジショクドウ」の3通りの仮の読みRDt1を示している。仮の読みRDt1が「ラクノミヤフジショクドウ」の場合、仮の読みRDt1と実際の読みRD10の両方が「ラクノミヤフジショクドウ」であるため、字のずれも不一致箇所もない。このため、仮の読みRDt1が「ラクノミヤフジショクドウ」の場合、仮の読みRDt1と実際の読みRD10とのマッチングのコストは、”0”である。   As an example of matching, three provisional readings RDt1 of “Rakunomiyafujishokudo”, “Gakunomiyafujishokudo”, and “Rakunomyokufujishokudo” are shown. When the provisional reading RDt1 is “Rakunomiya Fuji Dokdo”, since both the provisional reading RDt1 and the actual reading RD10 are “Rakunomiya Fuji Dokudo”, there is no misalignment or mismatched portion. For this reason, when the provisional reading RDt1 is “Rakunomya Fujishokudo”, the matching cost between the provisional reading RDt1 and the actual reading RD10 is “0”.

仮の読みRDt1が「ガクノミヤフジショクドウ」の場合、仮の読みRDt1は、実際の読みRD10である「ラクノミヤフジショクドウ」に対して、字のずれはないが、不一致箇所が1つ存在する(図4の細い破線で囲んだ箇所)。このため、仮の読みRDt1が「ガクノミヤフジショクドウ」の場合、仮の読みRDt1と実際の読みRD10とのマッチングのコストは、不一致のコストである”3”になる。   When the provisional reading RDt1 is “Gakunomiyafujishokudo”, the provisional reading RDt1 is not misaligned with the actual reading RD10 “Rakunomiyafujishokudo”, but there is one mismatched portion. Exists (location surrounded by a thin broken line in FIG. 4). For this reason, when the provisional reading RDt1 is “Gakunomya Fujishokudo”, the matching cost between the provisional reading RDt1 and the actual reading RD10 is “3”, which is a mismatch cost.

仮の読みRDt1が「ラクノミオクフジショクドウ」の場合、仮の読みRDt1は、実際の読みRD10である「ラクノミヤフジショクドウ」に対して、字のずれと不一致箇所とが存在する(図4の太い破線で囲んだ箇所)。このため、仮の読みRDt1が「ラクノミオクフジショクドウ」の場合、仮の読みRDt1と実際の読みRD10とのマッチングのコストは、1文字のずれのコスト”1”と2文字の不一致のコスト”6”との和である”7”になる。   When the provisional reading RDt1 is “Rakunomiyakokudokudo”, the provisional reading RDt1 has a misalignment and a disagreement with the actual reading RD10 “Rakunomiyafujishokudo” ( (A portion surrounded by a thick broken line in FIG. 4). For this reason, when the provisional reading RDt1 is “Rakuno okufujishokudo”, the matching cost between the provisional reading RDt1 and the actual reading RD10 is the difference between the one character deviation cost “1” and the two character mismatch. It becomes “7” which is the sum of the cost “6”.

したがって、選択部SEL(例えば、選択部SELの判定部JUDG)は、実際の読みRD10に最も類似する読みRD20として、マッチングのコストが最も小さい仮の読みRDt1である「ラクノミヤフジショクドウ」を選択する。また、選択部SELは、「ラクノミヤフジショクドウ」が仮の読みRDt1として割り当てられた表記ND10を、辞書登録の際に参照する表記として選択する。   Therefore, the selection unit SEL (for example, the determination unit JUDG of the selection unit SEL) selects “Rakunomiya Fuji” which is the provisional reading RDt1 with the lowest matching cost as the reading RD20 most similar to the actual reading RD10. select. In addition, the selection unit SEL selects the notation ND10 to which “Rakunomya Fujishokudo” is assigned as the provisional reading RDt1 as the notation to be referred to at the time of dictionary registration.

なお、例えば、図2に示したパターン記憶部PMEMに「富士食堂」が記憶されている場合、表記ND20として、「楽飲み屋」が作成される。この場合、表記ND20の仮の読みRDt2(例えば、「ラクノミヤ」)と実際の読みRD10とのマッチングのコストは、表記ND10の仮の読みRDt1と実際の読みRD10とのマッチングのコストの最小値(”0”)より大きい。   For example, when “Fuji Shokudo” is stored in the pattern storage unit PMEM illustrated in FIG. 2, “Rakutakuya” is created as the notation ND20. In this case, the matching cost between the provisional reading RDt2 (for example, “Rakunomiya”) of the notation ND20 and the actual reading RD10 is the minimum value of the matching cost between the provisional reading RDt1 of the notation ND10 and the actual reading RD10 ( Greater than "0").

このため、パターン記憶部PMEMに「富士食堂」が記憶されている場合でも、選択部SELは、実際の読みRD10に最も類似する読みRD20として、マッチングのコストが最も小さい仮の読みRDt1である「ラクノミヤフジショクドウ」を選択する。また、選択部SELは、「ラクノミヤフジショクドウ」が仮の読みRDt1として割り当てられた表記ND10を、辞書登録の際に参照する表記として選択する。このように、選択部SELは、表記ND10、ND20のうち、読みRD20に対応する表記NDを選択する。   Therefore, even when “Fuji Shokudo” is stored in the pattern storage unit PMEM, the selection unit SEL is the provisional reading RDt1 with the lowest matching cost as the reading RD20 most similar to the actual reading RD10. Select "Rakunomiya Fuji Shokoku". In addition, the selection unit SEL selects the notation ND10 to which “Rakunomya Fujishokudo” is assigned as the provisional reading RDt1 as the notation to be referred to at the time of dictionary registration. Thus, the selection unit SEL selects the notation ND corresponding to the reading RD20 from the notations ND10 and ND20.

図5は、図1に示した音声辞書作成装置DSYSの動作の一例を示している。図5の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、音声辞書作成プログラム等のソフトウエアは、図5の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、音声辞書作成プログラムを記録した記憶媒体を読み取り、図5の動作を実行してもよい。なお、図5の動作をコンピュータに実行させるプログラムは、音声辞書作成プログラムの一態様である。   FIG. 5 shows an example of the operation of the speech dictionary creation apparatus DSYS shown in FIG. The operation of FIG. 5 may be realized only by hardware, or may be realized by controlling the hardware by software. For example, software such as a speech dictionary creation program may cause the computer to execute the operation of FIG. That is, the computer may read the storage medium storing the voice dictionary creation program and execute the operation of FIG. Note that the program that causes the computer to execute the operation of FIG. 5 is an aspect of the speech dictionary creation program.

ステップS100では、入力部INPは、文字列の表記および読みにそれぞれ対応する表記ND10および読みRD10を取得する。例えば、入力部INPは、データベースDBに登録されている表記ND10と読みRD10のペアを、データベースDBから全て読み出す。そして、入力部INPは、例えば、データベースDBから読み出した表記ND10と読みRD10のペアを、音声辞書作成装置DSYSのメモリ等に記憶する。   In step S100, the input unit INP acquires the notation ND10 and the reading RD10 corresponding to the notation and reading of the character string, respectively. For example, the input unit INP reads all pairs of the notation ND10 and the reading RD10 registered in the database DB from the database DB. The input unit INP stores, for example, a pair of the notation ND10 and the reading RD10 read from the database DB in a memory of the speech dictionary creation device DSYS.

ステップS200では、抽出部EXTRは、表記ND10中の文字列のうち、読みRD10に対応する部分がないと推定される除去対象の文字を表記ND10毎に抽出する。例えば、抽出部EXTRは、ステップS100で取得した全ての表記ND10に対して、除去対象の文字を抽出する処理を実行する。これにより、別の文字種で同一の読みの表記が並ぶ単語、宣伝用の単語、定型文の単語等の読みに表れない可能性のある単語が表記ND10毎に抽出される。   In step S200, the extraction unit EXTR extracts, for each notation ND10, characters to be removed that are estimated to have no portion corresponding to the reading RD10 from the character string in the notation ND10. For example, the extraction unit EXTR executes a process of extracting characters to be removed for all the notations ND10 acquired in step S100. As a result, words that may not appear in the reading, such as words in which the same reading notation is arranged in different character types, words for advertisement, words in fixed phrases, etc., are extracted for each notation ND10.

ステップS300では、表記作成部NGENは、仮の読みRDtを対応させた表記ND10等を作成する。例えば、表記作成部NGENは、ステップS100で取得した表記ND10中の文字に対して仮の読みRDt1を割り当てる。なお、表記作成部NGENは、例えば、表記ND10中の文字に対する仮の読みRDt1の割り当てがステップS200で実行されている場合、ステップS200で実行された割り当ての結果を用いてもよい。   In step S300, the notation creation unit NGEN creates the notation ND10 and the like associated with the provisional reading RDt. For example, the notation creation unit NGEN assigns a provisional reading RDt1 to the characters in the notation ND10 acquired in step S100. Note that the notation creation unit NGEN may use the result of the assignment performed in step S200, for example, when the provisional reading RDt1 is assigned to the characters in the notation ND10 in step S200.

また、表記作成部NGENは、例えば、ステップS200で除去対象の文字が抽出されている場合、ステップS100で取得した表記ND10中の文字列から除去対象の文字を除去して表記ND20を作成する。そして、表記作成部NGENは、表記ND20中の文字に対して仮の読みRDt2を割り当てる。これにより、仮の読みRDtを対応させた表記ND10、ND20が作成される。   For example, when the removal target character is extracted in step S200, the notation creation unit NGEN removes the removal target character from the character string in the notation ND10 acquired in step S100 and creates the notation ND20. Then, the notation creation unit NGEN assigns a temporary reading RDt2 to the characters in the notation ND20. As a result, the notations ND10 and ND20 associated with the provisional reading RDt are created.

ステップS400では、選択部SELは、例えば、ステップS300で作成した表記NDに対応付けされた複数の仮の読みRDtから、読みRD10に最も類似する仮の読みを読みRD20として選択する。例えば、選択部SELは、表記ND10、ND20の各表記中の文字の読みに基づいて生成される複数の仮の読みRDt1、RDt2から、読みRD10に最も類似する仮の読みを読みRD20として選択する。   In step S400, for example, the selection unit SEL selects a provisional reading most similar to the reading RD10 as the reading RD20 from a plurality of provisional readings RDt associated with the notation ND created in step S300. For example, the selection unit SEL selects the provisional reading most similar to the reading RD10 as the reading RD20 from the plurality of provisional readings RDt1 and RDt2 generated based on the reading of the characters in the notations ND10 and ND20. .

ステップS500では、辞書登録部REGPは、ステップS400で選択した読みRD20に基づいて、表記ND10に含まれる未知語の表記ND30および読みRD30を辞書DICTに登録する。例えば、辞書登録部REGPは、表記ND10、ND20のうちの読みRD20に対応する表記NDと読みRD20とに基づいて、表記ND10に含まれる未知語の表記ND30および読みRD30を辞書DICTに登録する。   In step S500, the dictionary registration unit REGP registers the unknown word notation ND30 and the reading RD30 included in the notation ND10 in the dictionary DICT based on the reading RD20 selected in step S400. For example, the dictionary registration unit REGP registers the notation ND30 and the reading RD30 of the unknown word included in the notation ND10 in the dictionary DICT based on the notation ND20 and the reading RD20 corresponding to the reading RD20 of the notations ND10 and ND20.

このように、音声辞書作成装置DSYSは、未知語を含む表記ND10と、読みRD10との対応に不一致が生じている場合、表記ND10中の文字列のうち、読みRD10に対応する部分がないと推定される除去対象の文字を抽出する。そして、音声辞書作成装置DSYSは、除去対象の文字を除去した表記ND20に対応する仮の読みRDt2と読みRD10とのマッチングを実行する。これにより、音声辞書作成装置DSYSは、未知語の表記ND30と読みRD30との対応付けの精度を向上できる。   As described above, when there is a mismatch in correspondence between the notation ND10 including the unknown word and the reading RD10, the speech dictionary creation device DSYS has no portion corresponding to the reading RD10 in the character string in the notation ND10. Extract the estimated characters to be removed. Then, the speech dictionary creation device DSYS performs matching between the provisional reading RDt2 and the reading RD10 corresponding to the notation ND20 from which the character to be removed is removed. Thereby, the speech dictionary creation device DSYS can improve the accuracy of the association between the unknown word notation ND30 and the reading RD30.

なお、音声辞書作成装置DSYSの動作は、この例に限定されない。例えば、音声辞書作成装置DSYSは、登録できなかった未知語の表記や読みをディスプレイ等に出力してもよい。また、例えば、音声辞書作成装置DSYSは、登録できなかった未知語を含む表記ND10に対して、ステップS200−S500の処理を再度実行してもよい。この場合、例えば、1回目の辞書登録により更新された辞書DICTを参照できるため、仮の読みRDtの割り当ての精度が向上する可能性がある。   The operation of the speech dictionary creation device DSYS is not limited to this example. For example, the speech dictionary creation device DSYS may output a notation or reading of an unknown word that could not be registered on a display or the like. Further, for example, the speech dictionary creation device DSYS may execute the processes of steps S200 to S500 again for the notation ND10 including the unknown word that could not be registered. In this case, for example, since the dictionary DICT updated by the first dictionary registration can be referred to, there is a possibility that the accuracy of provisional reading RDt allocation may be improved.

図6は、図1に示した抽出部EXTRの動作の一例を示している。なお、図6の動作は、図5に示したステップS200に対応している。例えば、図6の動作は、図2に示した文字解析部ANALY、読み推定部PRED、連続表記抽出部CEXTおよびパターン抽出部PEXTにより実行される。   FIG. 6 shows an example of the operation of the extraction unit EXTR shown in FIG. The operation of FIG. 6 corresponds to step S200 shown in FIG. For example, the operation of FIG. 6 is executed by the character analysis unit ANALY, the reading estimation unit PRED, the continuous notation extraction unit CEXT, and the pattern extraction unit PEXT shown in FIG.

なお、図6の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、音声辞書作成プログラム等のソフトウエアは、図6の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、音声辞書作成プログラムを記録した記憶媒体を読み取り、図6の動作を実行してもよい。   Note that the operation of FIG. 6 may be realized only by hardware, or may be realized by controlling the hardware by software. For example, software such as a speech dictionary creation program may cause the computer to execute the operation of FIG. That is, the computer may read the storage medium storing the voice dictionary creation program and execute the operation of FIG.

ステップS210では、例えば、文字解析部ANALYは、形態素解析等を実行し、表記ND10の文字解析を実行する。   In step S210, for example, the character analysis unit ANALY performs morphological analysis or the like, and performs character analysis of the notation ND10.

ステップS220では、例えば、読み推定部PREDは、表記ND10の読みを推定する。例えば、読み推定部PREDは、辞書DICT等を参照して、ステップS210の文字解析により区切られた単語に仮の読みを対応付ける。これにより、表記ND10に対する仮の読みRDt1が推定される。なお、読み推定部PREDは、未知の単語に対しては、単漢字の読み、ローマ字読み、アルファベット読み、フォニックス等を用いて、仮の読みを推定する。   In step S220, for example, the reading estimation unit PRED estimates the reading of the notation ND10. For example, the reading estimation unit PRED refers to the dictionary DICT or the like and associates the temporary reading with the words delimited by the character analysis in step S210. Thereby, provisional reading RDt1 with respect to notation ND10 is estimated. Note that the reading estimation unit PRED estimates a temporary reading for an unknown word using single kanji reading, romaji reading, alphabet reading, phonics, or the like.

ステップS230では、例えば、パターン抽出部PEXTは、表記ND10中の文字列から、除去リスト等に事前登録された単語や特徴的なパターンの文字列を抽出する。例えば、パターン抽出部PEXTは、パターン記憶部PMEMに記憶されている除去リストを読み出す。そして、パターン抽出部PEXTは、除去リストに事前登録された単語や特徴的なパターンの文字列に一致する単語が表記ND10中の文字列に存在するか検索する。   In step S230, for example, the pattern extraction unit PEXT extracts a character string of a word or a characteristic pattern pre-registered in a removal list or the like from a character string in the notation ND10. For example, the pattern extraction unit PEXT reads a removal list stored in the pattern storage unit PMEM. Then, the pattern extraction unit PEXT searches for a word pre-registered in the removal list or a word matching the character string of the characteristic pattern in the character string in the notation ND10.

そして、抽出部EXTRは、例えば、除去リストに事前登録された単語等に一致する単語を表記ND10から検出した場合、検出した単語を除去対象の文字として抽出する。例えば、定型文の単語は、パターン記憶部PMEMに記憶されている除去リスト等に、予め登録されている。また、例えば、宣伝用の単語は、特徴的なパターンの文字列として、除去リスト等に予め登録されている。この場合、パターン抽出部PEXTは、表記ND10中の文字列のうち、定型文の単語や宣伝用の単語を除去対象の文字として抽出する。   Then, for example, if the extraction unit EXTR detects from the notation ND10 a word that matches a word or the like registered in advance in the removal list, the extraction unit EXTR extracts the detected word as a character to be removed. For example, the words of the fixed phrases are registered in advance in a removal list or the like stored in the pattern storage unit PMEM. In addition, for example, advertising words are registered in advance in a removal list or the like as a character string of a characteristic pattern. In this case, the pattern extraction unit PEXT extracts a fixed phrase word or a promotion word as a character to be removed from the character string in the notation ND10.

ステップS240では、例えば、連続表記抽出部CEXTは、表記ND10中の文字列のうち、前の単語と別文字種で同じ読みの単語を抽出する。例えば、連続表記抽出部CEXTは、ステップS220で推定した表記ND10の仮の読みRDt1と、表記ND10とを参照して、前の単語と別文字種で同じ読みの単語を、表記ND10中の文字列から検索する。そして、連続表記抽出部CEXTは、前の単語と別文字種で同じ読みの単語を検出した場合、検出した単語を除去対象の文字として抽出する。   In step S240, for example, the continuous notation extraction unit CEXT extracts a word that is read in the same character type as the previous word from the character string in the notation ND10. For example, the continuous notation extraction unit CEXT refers to the provisional reading RDt1 of the notation ND10 estimated in step S220 and the notation ND10, and reads a word of the same reading with a different character type from the previous word as a character string in the notation ND10. Search from. Then, when the consecutive reading extraction unit CEXT detects a word having the same reading as another character type as the previous word, it extracts the detected word as a character to be removed.

このように、抽出部EXTRは、ステップS230、S240において、表記ND10中の文字列から除去対象の文字を抽出する。例えば、ステップS240により、音声辞書作成装置DSYSは、別の文字種で同一の読みの表記が並ぶ単語が表記ND10に含まれている場合でも、図5のステップS500で登録される表記と読みとの対応付けの精度を向上できる。   In this way, the extraction unit EXTR extracts characters to be removed from the character string in the notation ND10 in steps S230 and S240. For example, in step S240, the speech dictionary creation device DSYS performs the notation and reading registered in step S500 of FIG. 5 even if the notation ND10 includes words with the same reading notation in different character types. The accuracy of association can be improved.

また、例えば、ステップS230により、音声辞書作成装置DSYSは、宣伝用の単語が表記ND10に含まれている場合でも、図5のステップS500で登録される表記と読みとの対応付けの精度を向上できる。あるいは、ステップS230により、音声辞書作成装置DSYSは、定型文の単語が表記ND10に含まれている場合でも、図5のステップS500で登録される表記と読みとの対応付けの精度を向上できる。   Further, for example, in step S230, the speech dictionary creation device DSYS improves the accuracy of the correspondence between the notation and the reading registered in step S500 of FIG. 5 even when the word for advertisement is included in the notation ND10. it can. Alternatively, the speech dictionary creation device DSYS can improve the accuracy of the correspondence between the notation and the reading registered in step S500 of FIG. 5 even when the fixed phrase word is included in the notation ND10 by step S230.

なお、抽出部EXTRの動作は、この例に限定されない。例えば、宣伝用の単語や定型文の単語を除去対象の文字としない場合、ステップS230は、省かれてもよい。また、例えば、別の文字種で同一の読みの表記が並ぶ単語を除去対象の文字としない場合、ステップS220、S240は、省かれてもよい。   The operation of the extraction unit EXTR is not limited to this example. For example, when the word for advertisement or the word of the fixed phrase is not used as the character to be removed, step S230 may be omitted. Further, for example, when words having the same reading notation in different character types are not to be removed, steps S220 and S240 may be omitted.

図7は、図1に示した選択部SELの動作の一例を示している。なお、図7の動作は、図5に示したステップS400に対応している。図7の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、音声辞書作成プログラム等のソフトウエアは、図7の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、音声辞書作成プログラムを記録した記憶媒体を読み取り、図7の動作を実行してもよい。   FIG. 7 illustrates an example of the operation of the selection unit SEL illustrated in FIG. The operation in FIG. 7 corresponds to step S400 shown in FIG. The operation of FIG. 7 may be realized only by hardware, or may be realized by controlling the hardware by software. For example, software such as a speech dictionary creation program may cause the computer to execute the operation of FIG. That is, the computer may read the storage medium storing the voice dictionary creation program and execute the operation of FIG.

ステップS410では、例えば、マッチング部MATは、除去対象の文字を除去した表記ND20と除去対象の文字を残した表記ND10のそれぞれに対して仮の読みRDt(RDt1、RDt2)を対応させた複数の表記データNDを受ける。すなわち、マッチング部MATは、図5のステップS300で作成された表記データNDを、表記作成部NGENから受ける。   In step S410, for example, the matching unit MAT associates a provisional reading RDt (RDt1, RDt2) with each of the notation ND20 from which the character to be removed is removed and the notation ND10 from which the character to be removed is left. The notation data ND is received. That is, the matching unit MAT receives the notation data ND created in step S300 of FIG. 5 from the notation creation unit NGEN.

さらに、マッチング部MATは、実際の読みデータRD10を表記作成部NGENから受ける。このように、マッチング部MATは、例えば、実際の読みデータRD10、表記データND10、仮の読みデータRDt1、表記データND20および仮の読みデータRDt2を受ける。なお、マッチング部MATは、実際の読みデータRD10を入力部INPから受けてもよい。   Further, the matching unit MAT receives the actual reading data RD10 from the notation creation unit NGEN. Thus, the matching unit MAT receives, for example, actual reading data RD10, notation data ND10, provisional reading data RDt1, notation data ND20, and provisional reading data RDt2. Note that the matching unit MAT may receive the actual reading data RD10 from the input unit INP.

ステップS420では、例えば、マッチング部MATは、ステップS410で受けた複数の仮の読みRDtから、マッチング対象の仮の読みRDtを選択する。   In step S420, for example, the matching unit MAT selects a provisional reading RDt to be matched from the plurality of provisional readings RDt received in step S410.

ステップS430では、例えば、マッチング部MATは、ステップS420で選択した仮の読みRDtと、ステップS410で受けた実際の読みRD10とのマッチングを実行する。これにより、例えば、ステップS420で選択した仮の読みRDtと、ステップS410で受けた実際の読みRD10とのマッチングのコストが算出される。   In step S430, for example, the matching unit MAT performs matching between the provisional reading RDt selected in step S420 and the actual reading RD10 received in step S410. Thereby, for example, the cost of matching between the provisional reading RDt selected in step S420 and the actual reading RD10 received in step S410 is calculated.

ステップS440では、例えば、マッチング部MATは、ステップS410で受けた全ての仮の読みRDtに対して、マッチング(ステップS430のマッチング処理)が終了したか否かを判定する。マッチングが終了していない仮の読みRDtが存在するとき(ステップS440のNo)、選択部SELの動作は、ステップS420に戻る。一方、全ての仮の読みRDtに対してマッチングが終了しているとき(ステップS440のYes)、選択部SELの動作は、ステップS450に移る。   In step S440, for example, the matching unit MAT determines whether matching (matching process in step S430) has been completed for all the provisional readings RDt received in step S410. When there is a provisional reading RDt for which matching has not ended (No in Step S440), the operation of the selection unit SEL returns to Step S420. On the other hand, when matching has been completed for all provisional readings RDt (Yes in step S440), the operation of the selection unit SEL moves to step S450.

ステップS450では、例えば、判定部JUDGは、実際の読みRD10に最も類似する仮の読みRDtを選択する。例えば、判定部JUDGは、ステップS430で算出されたマッチングのコストが最小な仮の読みRDtを、実際の読みRD10に最も類似する仮の読みRD20として選択する。   In step S450, for example, the determination unit JUDG selects a temporary reading RDt that is most similar to the actual reading RD10. For example, the determination unit JUDG selects the provisional reading RDt with the lowest matching cost calculated in step S430 as the provisional reading RD20 most similar to the actual reading RD10.

ステップS460では、例えば、判定部JUDGは、ステップS450で選択した仮の読みRD20と実際の読みRD10とで、不一致箇所が存在する場合、仮の読みRD20の不一致箇所の正しい読みを、不一致箇所の前後のマッチング関係から推定する。例えば、判定部JUDGは、図8に示すように、実際の読みRD10を参照して、仮の読みRD20の不一致箇所の正しい読みを推定する。   In step S460, for example, when the tentative reading RD20 selected in step S450 and the actual reading RD10 include a mismatched portion, the determination unit JUDG performs the correct reading of the mismatched portion of the temporary reading RD20 as the mismatched portion. Estimate from the matching relationship before and after. For example, as illustrated in FIG. 8, the determination unit JUDG refers to the actual reading RD10 and estimates a correct reading of the mismatched portion of the temporary reading RD20.

なお、選択部SELの動作は、この例に限定されない。例えば、ステップS460は、省かれてもよい。あるいは、ステップS460は、辞書登録部REGPで実行されてもよい。   Note that the operation of the selection unit SEL is not limited to this example. For example, step S460 may be omitted. Alternatively, step S460 may be executed by the dictionary registration unit REGP.

図8は、不一致箇所の前後のマッチング関係から読みを推定する動作の一例を示している。図8では、実際の表記ND10は、「大人の隠れ家 酔飲屋 富士食堂 1号店」であり、実際の読みRD10は、「オトナノカクレガ ヨイノミヤ フジショクドウ」である。また、除去対象の文字として、「1号店」が抽出されている。このため、除去対象の文字を除去した表記ND20として、「大人の隠れ家 酔飲屋 富士食堂」が作成されている。また、実際の読みRD10に最も類似する読みRD20として、表記ND20の仮の読みRDt2の1つである「オトナノカクレガ ヨノヤ フジショクドウ」が選択されている。   FIG. 8 shows an example of an operation for estimating a reading from the matching relationship before and after the mismatched portion. In FIG. 8, the actual notation ND10 is “Adult Hideaway Drunk Restaurant Fuji Shokudo No. 1 Store”, and the actual reading RD10 is “Otonano Kakurega Yoinomiya Fuji Shokoku”. In addition, “No. 1 store” is extracted as a character to be removed. For this reason, “adult hideaway drunk bar Fuji restaurant” is created as the notation ND20 from which the character to be removed is removed. Also, as the reading RD20 most similar to the actual reading RD10, “Otonano Kakurega Yonoya Fujishokudo”, which is one of the provisional readings RDt2 of the notation ND20, is selected.

この場合、読みRD20の「オトナノカクレガ」は、読みRD10の「オトナノカクレガ」に一致している。また、読みRD20の「フジショクドウ」は、読みRD10の「フジショクドウ」に一致している。なお、読みRD20における「オトナノカクレガ」と「フジショクドウ」との間に位置する「ヨノヤ」は、読みRD10における「オトナノカクレガ」と「フジショクドウ」との間に位置する「ヨイノミヤ」に一致していない。   In this case, “Otonano Kakurega” in the reading RD20 matches “Otonano Kakurega” in the reading RD10. Further, “Fujishoku Dou” of the reading RD20 matches “Fujishokudo” of the reading RD10. Note that “Yonoya” located between “Otonano Kakurega” and “Fujishoku Dou” in the reading RD20 does not coincide with “Yoinomiya” located between “Otonano Kakurega” and “Fujishoku Dou” in the reading RD10.

例えば、判定部JUDGは、読みRD20の「ヨノヤ」の前後(「オトナノカクレガ」、「フジショクドウ」)が読みRD10と一致しているため、読みRD20の「ヨノヤ」の正しい読みを、読みRD10から推測する。この場合、判定部JUDGは、読みRD20の「ヨノヤ」に対応する「酔飲屋」の読みを、読みRD10における「オトナノカクレガ」と「フジショクドウ」との間に位置する「ヨイノミヤ」と推測する。これにより、不一致箇所(例えば、「酔飲屋」)の読みが正しい読み(例えば、「ヨイノミヤ」)に推定される。   For example, the determination unit JUDG presumes the correct reading of “Yonoya” in the reading RD20 from the reading RD10 because “Yonoya” before and after “Yonoya” in the reading RD20 (“Otonano Kakurega”, “Fujishokudo”) matches the reading RD10. . In this case, the determination unit JUDG estimates the reading of “drunk bar” corresponding to “Yonoya” in reading RD20 as “Yoinomiya” located between “Otonano Kakurega” and “Fujishoku Dou” in reading RD10. As a result, the reading of the mismatched portion (for example, “drunk bar”) is estimated to be the correct reading (for example, “Yoinomiya”).

このように、音声辞書作成装置DSYSは、実際の読みRD10に一致する仮の読みRDtを作成できないときにも、不一致箇所の読みを推測できる。この結果、音声辞書作成装置DSYSは、未知語の表記ND30と読みRD30との対応付けの精度を向上できる。   As described above, the speech dictionary creation device DSYS can guess the reading of the mismatched portion even when the temporary reading RDt that matches the actual reading RD10 cannot be created. As a result, the speech dictionary creation device DSYS can improve the accuracy of association between the unknown word notation ND30 and the reading RD30.

図9は、図1に示した辞書登録部REGPの動作の一例を示している。なお、図9の動作は、図5に示したステップS500に対応している。図9の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、音声辞書作成プログラム等のソフトウエアは、図9の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、音声辞書作成プログラムを記録した記憶媒体を読み取り、図9の動作を実行してもよい。   FIG. 9 shows an example of the operation of the dictionary registration unit REGP shown in FIG. The operation of FIG. 9 corresponds to step S500 shown in FIG. The operation of FIG. 9 may be realized only by hardware, or may be realized by controlling the hardware by software. For example, software such as a speech dictionary creation program may cause a computer to execute the operation of FIG. That is, the computer may read the storage medium storing the voice dictionary creation program and execute the operation of FIG.

図9の動作では、1つの未知語の表記ND30に対して複数の読みRD30が検出された場合、複数の読みRD30を優先順位を付けて登録する。例えば、図9の動作では、辞書DICTに登録される件数を優先順位として登録する。   In the operation of FIG. 9, when a plurality of readings RD30 are detected for one unknown word notation ND30, the plurality of readings RD30 are registered with priority. For example, in the operation of FIG. 9, the number registered in the dictionary DICT is registered as the priority order.

ステップS510では、辞書登録部REGPは、マッチングのコストが最小な表記NDと読みRD20のペアを、選択部SELから受ける。   In step S510, the dictionary registration unit REGP receives, from the selection unit SEL, a pair of the notation ND and the reading RD20 with the lowest matching cost.

ステップS520では、辞書登録部REGPは、ステップS510で受けた表記NDと読みRD20のペアから、処理対象の単語(表記と読みのペア)を選択する。例えば、辞書登録部REGPは、読みが対応付けられている単語を、表記ND中の単語から選択する。   In step S520, the dictionary registration unit REGP selects a processing target word (notation and reading pair) from the pair of notation ND and reading RD20 received in step S510. For example, the dictionary registration unit REGP selects a word associated with a reading from words in the notation ND.

ステップS530では、辞書登録部REGPは、ステップS520で選択した単語が既知語か否かを判定する。なお、既知語は、例えば、辞書DICTに予め登録されている一般的な単語である。ステップS520で選択した単語が既知語のとき(ステップS530のYes)、辞書登録部REGPの動作は、ステップS570に移る。すなわち、ステップS520で選択した単語が既知語のとき、辞書登録部REGPは、ステップS520で選択した単語を辞書DICTに登録しない。   In step S530, the dictionary registration unit REGP determines whether or not the word selected in step S520 is a known word. The known word is, for example, a general word registered in advance in the dictionary DICT. When the word selected in step S520 is a known word (Yes in step S530), the operation of the dictionary registration unit REGP proceeds to step S570. That is, when the word selected in step S520 is a known word, the dictionary registration unit REGP does not register the word selected in step S520 in the dictionary DICT.

一方、ステップS520で選択した単語が既知語でないとき(ステップS530のNo)、辞書登録部REGPの動作は、ステップS540に移る。なお、ステップS540、S550、S560の説明では、ステップS520で選択した単語の表記と読みのペアを、未知語の表記ND30と読みRD30のペアとも称する。   On the other hand, when the word selected in step S520 is not a known word (No in step S530), the operation of the dictionary registration unit REGP proceeds to step S540. In the description of steps S540, S550, and S560, the word notation and reading pair selected in step S520 is also referred to as an unknown word notation ND30 and reading RD30 pair.

ステップS540では、辞書登録部REGPは、ステップS520で選択した未知語の表記ND30と読みRD30のペアと同じペア(表記ND30、読みRD30)が辞書DICTに既に登録されているか否かを判定する。未知語の表記ND30と読みRD30のペアと同じペアが辞書DICTに既に登録されているとき(ステップS540のYes)、辞書登録部REGPの動作は、ステップS560に移る。一方、未知語の表記ND30と読みRD30のペアと同じペアが辞書DICTに登録されていないとき(ステップS540のNo)、辞書登録部REGPの動作は、ステップS550に移る。   In step S540, the dictionary registration unit REGP determines whether the same pair (notation ND30, reading RD30) of the unknown word notation ND30 and reading RD30 selected in step S520 is already registered in the dictionary DICT. When the same pair as the unknown word notation ND30 and reading RD30 is already registered in the dictionary DICT (Yes in step S540), the operation of the dictionary registration unit REGP moves to step S560. On the other hand, when the same pair of the unknown word notation ND30 and reading RD30 is not registered in the dictionary DICT (No in step S540), the operation of the dictionary registration unit REGP proceeds to step S550.

ステップS550では、辞書登録部REGPは、未知語の表記ND30と読みRD30のペアを辞書DICTに登録する。これにより、ステップS520で選択した未知語の表記ND30と読みRD30のペアに対する登録動作が終了する。   In step S550, the dictionary registration unit REGP registers the pair of unknown word notation ND30 and reading RD30 in the dictionary DICT. Thereby, the registration operation for the pair of the unknown word notation ND30 and the reading RD30 selected in step S520 is completed.

ステップS560では、辞書登録部REGPは、未知語の表記ND30と読みRD30のペアの登録件数nの値に”1”を加算する。これにより、ステップS520で選択した未知語の表記ND30と読みRD30のペアに対する登録動作が終了する。なお、登録件数nは、例えば、1つの表記ND30に対して複数の読みRD30が登録されているときの、参照順位の優先度に対応している。   In step S560, the dictionary registration unit REGP adds “1” to the value of the registered number n of the unknown word notation ND30 and the reading RD30. Thereby, the registration operation for the pair of the unknown word notation ND30 and the reading RD30 selected in step S520 is completed. Note that the registered number n corresponds to, for example, the priority of the reference order when a plurality of readings RD30 are registered for one notation ND30.

ステップS570では、辞書登録部REGPは、ステップS510で受けた表記ND中に処理対象の単語があるか否かを判定する。例えば、辞書登録部REGPは、ステップS510で受けた表記ND中の読みが対応付けられている全ての単語に対して、ステップS530等の処理が実行されたか判定する。表記ND中に処理対象の単語があるとき(ステップS570のYes)、辞書登録部REGPの動作は、ステップS520に戻る。一方、表記ND中に処理対象の単語がないとき(ステップS570のNo)、ステップS510で受けた表記NDと読みRD20のペアに関する辞書登録部REGPの動作は、終了する。   In step S570, the dictionary registration unit REGP determines whether there is a word to be processed in the notation ND received in step S510. For example, the dictionary registration unit REGP determines whether or not the processing in step S530 and the like has been executed for all words associated with the reading in the notation ND received in step S510. When there is a word to be processed in the notation ND (Yes in step S570), the operation of the dictionary registration unit REGP returns to step S520. On the other hand, when there is no word to be processed in the notation ND (No in step S570), the operation of the dictionary registration unit REGP regarding the pair of the notation ND and the reading RD20 received in step S510 ends.

なお、辞書登録部REGPの動作は、この例に限定されない。例えば、辞書登録部REGPは、1つの表記ND30に対して最も多く検出される読みRD30を選択して、辞書DICTに登録してもよい。この場合、選択された1つのペア(未知語の表記ND30と読みRD30のペア)が辞書DICTに登録される。あるいは、ステップS560は、省かれてもよい。この場合、1つの表記ND30に対して最初に検出された読みRD30が、表記ND30の読みRD30として辞書DICTに登録される。さらに、ステップS540、S560が省かれてもよい。この場合、1つの表記ND30に対して最後に検出された読みRD30が、表記ND30の読みRD30として辞書DICTに登録される。   The operation of the dictionary registration unit REGP is not limited to this example. For example, the dictionary registration unit REGP may select the reading RD30 most frequently detected for one notation ND30 and register it in the dictionary DICT. In this case, one selected pair (an unknown word notation ND30 and a reading RD30 pair) is registered in the dictionary DICT. Alternatively, step S560 may be omitted. In this case, the reading RD30 first detected for one notation ND30 is registered in the dictionary DICT as the reading RD30 of the notation ND30. Further, steps S540 and S560 may be omitted. In this case, the last reading RD30 detected for one notation ND30 is registered in the dictionary DICT as the reading RD30 of the notation ND30.

以上、図1から図9に示した実施形態の音声辞書作成装置DSYS、音声辞書作成方法および音声辞書作成プログラムは、仮の読みRDt1と読みRD10とのマッチング、および、仮の読みRDt2と読みRD10とのマッチングを実行する。そして、例えば、音声辞書作成装置DSYSは、仮の読みRDt1と読みRD10とのマッチングの結果と、仮の読みRDt2と読みRD10とのマッチングの結果とに基づいて、未知語の表記ND30と読みRD30を辞書DICTに登録する。   As described above, the speech dictionary creating apparatus DSYS, the speech dictionary creating method, and the speech dictionary creating program according to the embodiment shown in FIGS. 1 to 9 match the provisional reading RDt1 and the reading RD10, and the provisional reading RDt2 and the reading RD10. Perform matching with. Then, for example, the speech dictionary creation device DSYS uses the unknown word notation ND30 and the reading RD30 based on the matching result between the temporary reading RDt1 and the reading RD10 and the matching result between the temporary reading RDt2 and the reading RD10. Is registered in the dictionary DICT.

例えば、音声辞書作成装置DSYSは、表記ND10および読みRD10を取得する入力部INPと、除去対象の文字を表記ND10から抽出する抽出部EXTRと、表記作成部NGENと、選択部SELと、辞書登録部REGPとを有している。表記作成部NGENは、例えば、除去対象の文字を表記ND10から除去した表記ND20を作成する。   For example, the speech dictionary creation device DSYS includes an input unit INP that acquires the notation ND10 and the reading RD10, an extraction unit EXTR that extracts characters to be removed from the notation ND10, a notation creation unit NGEN, a selection unit SEL, and a dictionary registration Part REGP. For example, the notation creation unit NGEN creates a notation ND20 in which the character to be removed is removed from the notation ND10.

選択部SELは、表記ND10、ND20の各表記中の文字の読みに基づいて生成される複数の仮の読みRDtから、読みRD10に最も類似する仮の読みRDtを読みRD20として選択する。例えば、選択部SELは、仮の読みRDt1と読みRD10とのマッチング、および、仮の読みRDt2と読みRD10とのマッチングに基づいて、読みRD10に最も類似する仮の読みRDtを選択する。   The selection unit SEL selects the provisional reading RDt most similar to the reading RD10 as the reading RD20 from a plurality of provisional readings RDt generated based on the reading of the characters in the notations ND10 and ND20. For example, the selection unit SEL selects the temporary reading RDt most similar to the reading RD10 based on the matching between the temporary reading RDt1 and the reading RD10 and the matching between the temporary reading RDt2 and the reading RD10.

また、辞書登録部REGPは、表記ND10、ND20のうちの読みRD20に対応する表記NDと読みRD20とに基づいて、表記ND10に含まれる未知語の表記ND30および読みRD30を辞書DICTに登録する。このように、音声辞書作成装置DSYSは、表記ND10から除去対象の文字を除去した表記ND20と仮の読みRDt2のマッチングと、表記ND10と仮の読みRDt1のマッチングとに基づいて、未知語の表記ND30と読みRD30を辞書DICTに登録する。   Further, the dictionary registration unit REGP registers the notation ND30 and the reading RD30 of the unknown word included in the notation ND10 in the dictionary DICT based on the notation ND20 and the reading RD20 corresponding to the reading RD20 of the notations ND10 and ND20. In this way, the speech dictionary creation device DSYS does notation of unknown words based on the matching of the notation ND20 and the provisional reading RDt2 obtained by removing the character to be removed from the notation ND10, and the matching of the notation ND10 and the provisional reading RDt1. ND30 and reading RD30 are registered in the dictionary DICT.

これにより、この実施形態では、表記ND10と読みRD10との対応に不一致が生じている場合でも、未知語の表記と読みとの対応付けの精度を向上できる。すなわち、この実施形態では、既存のデータ(表記ND10と読みRD10とのペア)を用いて辞書DICTを作成する際に、表記と読みとの対応付けの精度を向上できる。   Thereby, in this embodiment, even when the correspondence between the notation ND10 and the reading RD10 is inconsistent, the accuracy of the association between the unknown word notation and the reading can be improved. That is, in this embodiment, when the dictionary DICT is created using existing data (a pair of the notation ND10 and the reading RD10), the accuracy of association between the notation and the reading can be improved.

図10は、図1に示した音声辞書作成装置DSYSのハードウエア構成の一例を示している。なお、図1から図9で説明した要素と同様の要素については、同様の符号を付し、これ等については、詳細な説明を省略する。   FIG. 10 shows an example of the hardware configuration of the speech dictionary creation apparatus DSYS shown in FIG. The same elements as those described in FIGS. 1 to 9 are denoted by the same reference numerals, and detailed description thereof will be omitted.

コンピュータ装置CPは、プロセッサPUと、メモリMEMと、ハードディスク装置HDDと、入出力インタフェースIFと、光学ドライブ装置ODRとを有している。プロセッサPUと、メモリMEMと、ハードディスク装置HDDと、入出力インタフェースIFと、光学ドライブ装置ODRとは、バスBUSを介して互いに接続されている。例えば、音声辞書作成装置DSYSの機能は、プロセッサPUと、メモリMEMと、ハードディスク装置HDDと、入出力インタフェースIFとにより実現される。   The computer device CP includes a processor PU, a memory MEM, a hard disk device HDD, an input / output interface IF, and an optical drive device ODR. The processor PU, the memory MEM, the hard disk device HDD, the input / output interface IF, and the optical drive device ODR are connected to each other via a bus BUS. For example, the function of the speech dictionary creation device DSYS is realized by a processor PU, a memory MEM, a hard disk device HDD, and an input / output interface IF.

光学ドライブ装置ODRは、光ディスク等のリムーバブルディスクDISを装着可能であり、装着したリムーバブルディスクDISに記録された情報の読み出しおよび記録を行う。また、コンピュータ装置CPは、例えば、入出力インタフェースIFを介してコンピュータ装置CPの外部と通信する。例えば、コンピュータ装置CPは、入出力インタフェースIFを介して、データベースDBから表記ND10および読みRD10を取得する。なお、コンピュータ装置CPは、データベースDBから取得した表記ND10および読みRD10を、メモリMEMやハードディスク装置HDDに格納してもよい。   The optical drive device ODR can be mounted with a removable disk DIS such as an optical disk, and reads and records information recorded on the mounted removable disk DIS. The computer apparatus CP communicates with the outside of the computer apparatus CP via, for example, the input / output interface IF. For example, the computer device CP acquires the notation ND10 and the reading RD10 from the database DB via the input / output interface IF. The computer device CP may store the notation ND10 and the reading RD10 acquired from the database DB in the memory MEM or the hard disk device HDD.

メモリMEMは、例えば、コンピュータ装置CPのオペレーティングシステムを格納している。また、メモリMEMは、例えば、音声辞書作成装置DSYSの動作をプロセッサPUが実行するための音声辞書作成プログラム等のアプリケーションプログラムを格納している。   The memory MEM stores, for example, the operating system of the computer device CP. Further, the memory MEM stores an application program such as a speech dictionary creation program for the processor PU to execute the operation of the speech dictionary creation device DSYS.

音声辞書作成プログラム等のアプリケーションプログラムは、例えば、光ディスク等のリムーバブルディスクDISに記録して頒布することができる。例えば、コンピュータ装置CPは、音声辞書作成プログラム等のアプリケーションプログラムを、リムーバブルディスクDISから光学ドライブ装置ODRを介して読み出し、メモリMEMやハードディスク装置HDDに格納してもよい。   An application program such as an audio dictionary creation program can be recorded and distributed on a removable disk DIS such as an optical disk. For example, the computer device CP may read an application program such as a speech dictionary creation program from the removable disk DIS via the optical drive device ODR and store it in the memory MEM or the hard disk device HDD.

また、コンピュータ装置CPは、音声辞書作成プログラム等のアプリケーションプログラムを、インターネット等のネットワークに接続する通信装置を介してダウンロードし、メモリMEMやハードディスク装置HDDに格納してもよい。さらに、コンピュータ装置CPは、インターネット等のネットワークに接続する通信装置を介して、Webページから表記ND10および読みRD10を取得してもよい。また、コンピュータ装置CPは、Webページから取得した表記ND10および読みRD10を、メモリMEMやハードディスク装置HDDに格納してもよい。   In addition, the computer device CP may download an application program such as a speech dictionary creation program via a communication device connected to a network such as the Internet and store it in the memory MEM or the hard disk device HDD. Further, the computer device CP may acquire the notation ND10 and the reading RD10 from the Web page via a communication device connected to a network such as the Internet. Further, the computer device CP may store the notation ND10 and the reading RD10 acquired from the Web page in the memory MEM or the hard disk device HDD.

なお、音声辞書作成装置DSYSのハードウエア構成は、この例に限定されない。例えば、コンピュータ装置CPは、光学ドライブ装置ODRが省かれてもよい。   The hardware configuration of the speech dictionary creation device DSYS is not limited to this example. For example, the optical drive device ODR may be omitted from the computer device CP.

図11は、図1に示した音声辞書作成装置DSYSが搭載された音声対話システムVSYSの一例を示している。なお、図1から図9で説明した要素と同様の要素については、同様の符号を付し、これ等については、詳細な説明を省略する。   FIG. 11 shows an example of a spoken dialogue system VSYS equipped with the speech dictionary creation device DSYS shown in FIG. The same elements as those described in FIGS. 1 to 9 are denoted by the same reference numerals, and detailed description thereof will be omitted.

音声対話システムVSYSは、例えば、携帯電話やコンピュータ等の端末TERMと通信可能である。例えば、端末TERMは、利用者の音声を受け、音声対話システムVSYSに音声データを出力する。あるいは、音声対話システムVSYSから音声データを受け、音声を出力する。   The voice interaction system VSYS can communicate with a terminal TERM such as a mobile phone or a computer. For example, the terminal TERM receives the user's voice and outputs voice data to the voice dialogue system VSYS. Alternatively, voice data is received from the voice dialogue system VSYS and voice is output.

音声対話システムVSYSは、例えば、辞書DICT、音声辞書作成装置DSYS、音声認識部VREC、対話制御部DCTLおよび音声合成部VSYNを有している。音声辞書作成装置DSYSにより作成される辞書DICTは、例えば、音声認識部VRECや音声合成部VSYNで使用される。   The voice dialogue system VSYS has, for example, a dictionary DICT, a voice dictionary creation device DSYS, a voice recognition unit VREC, a dialogue control unit DCTL, and a voice synthesis unit VSYN. The dictionary DICT created by the speech dictionary creation device DSYS is used by, for example, the speech recognition unit VREC and the speech synthesis unit VSYN.

音声認識部VRECは、例えば、端末TERMから音声データを受け、音声データの内容を示すテキストデータ(音声認識結果)を辞書DICTを参照して生成する。そして、音声認識部VRECは、音声認識結果(テキストデータ)を対話制御部DCTLに出力する。対話制御部DCTLは、音声認識結果を解析し、外部サービスやWeb情報から必要なテキスト情報を取得する。そして、対話制御部DCTLは、取得したテキスト情報を音声合成部VSYNに出力する。   For example, the voice recognition unit VREC receives voice data from the terminal TERM and generates text data (speech recognition result) indicating the contents of the voice data with reference to the dictionary DICT. Then, the voice recognition unit VREC outputs the voice recognition result (text data) to the dialogue control unit DCTL. The dialogue control unit DCTL analyzes the speech recognition result and acquires necessary text information from an external service or Web information. Then, the dialogue control unit DCTL outputs the acquired text information to the voice synthesis unit VSYN.

音声合成部VSYNは、音声合成を実行して、テキストデータに対応した音声データを生成する。例えば、音声合成部VSYNは、対話制御部DCTLから受けたテキスト情報に対応する音声データを、辞書DICTを参照して生成する。そして、音声合成部VSYNは、音声データ(音声合成結果)を端末TERMに出力する。   The speech synthesizer VSYN performs speech synthesis and generates speech data corresponding to the text data. For example, the speech synthesis unit VSYN generates speech data corresponding to text information received from the dialogue control unit DCTL with reference to the dictionary DICT. Then, the speech synthesis unit VSYN outputs speech data (speech synthesis result) to the terminal TERM.

これにより、利用者は、音声で情報を取得できる。例えば、利用者は、端末TERMに向かって「今日のニュースを聞きたい」と発する。音声対話システムVSYSは、「今日のニュースを聞きたい」に対応する音声データを端末TERMを介して受ける。そして、音声対話システムVSYSは、辞書DICT等を参照して音声データを解析し、今日のニュースに関するテキスト情報(例えば、「混合診療禁止は適法 最高裁」)を外部サービスやWeb情報から取得する。音声対話システムVSYSは、今日のニュースに関するテキスト情報に対応する音声データを生成し、端末TERMに出力する。これにより、例えば、端末TERMは、今日のニュースとして、「混合診療禁止は適法 最高裁」と音声で出力する。   Thereby, the user can acquire information by voice. For example, the user issues “I want to hear today's news” to the terminal TERM. The voice interactive system VSYS receives voice data corresponding to “I want to hear today's news” via the terminal TERM. Then, the voice dialogue system VSYS analyzes voice data with reference to the dictionary DICT or the like, and obtains text information relating to today's news (for example, “mixed medical prohibition is a legal supreme court”) from an external service or Web information. The voice interactive system VSYS generates voice data corresponding to text information about today's news and outputs it to the terminal TERM. Accordingly, for example, the terminal TERM outputs, as today's news, a voice saying “Prohibition of mixed medical treatment is a legal supreme court”.

以上の実施形態において説明した発明を整理して、付記として開示する。
(付記1)
文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得する入力部と、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出する抽出部と、
前記除去対象の文字を前記第1表記から除去した第2表記を作成する作成部と、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択する選択部と、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを辞書に登録する登録部と
を備えていることを特徴とする音声辞書作成装置。
(付記2)
付記1に記載の音声辞書作成装置において、
前記抽出部は、複数の前記仮の読みのうちの前記第1表記に対応する前記仮の読みを生成し、前記第1表記中の単語のうち、別の文字種で、かつ同一の読みで並ぶ2つの単語の一方を、前記除去対象の文字として抽出する
ことを特徴とする音声辞書作成装置。
(付記3)
付記2に記載の音声辞書作成装置において、
前記登録部は、前記2つの単語の一方が前記除去対象の文字として抽出され、前記2つの単語の他方の表記および読みが前記辞書に登録される場合、前記2つの単語の一方の表記および読みを、前記辞書に登録する
ことを特徴とする音声辞書作成装置。
(付記4)
付記1ないし付記3のいずれか1項に記載の音声辞書作成装置において、
前記抽出部は、予め登録された除去対象の単語および予め登録された特徴的なパターンの文字列の少なくとも一方を、前記除去対象の文字として抽出する
ことを特徴とする音声辞書作成装置。
(付記5)
文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得し、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出し、
前記除去対象の文字を前記第1表記から除去した第2表記を作成し、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択し、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを辞書に登録する
ことを特徴とする音声辞書作成方法。
(付記6)
付記5に記載の音声辞書作成方法において、
複数の前記仮の読みのうちの前記第1表記に対応する前記仮の読みを生成し、前記第1表記中の単語のうち、別の文字種で、かつ同一の読みで並ぶ2つの単語の一方を、前記除去対象の文字として抽出する
ことを特徴とする音声辞書作成方法。
(付記7)
付記6に記載の音声辞書作成方法において、
前記2つの単語の一方が前記除去対象の文字として抽出され、前記2つの単語の他方の表記および読みが前記辞書に登録される場合、前記2つの単語の一方の表記および読みを、前記辞書に登録する
ことを特徴とする音声辞書作成方法。
(付記8)
付記5ないし付記7のいずれか1項に記載の音声辞書作成方法において、
予め登録された除去対象の単語および予め登録された特徴的なパターンの文字列の少なくとも一方を、前記除去対象の文字として抽出する
ことを特徴とする音声辞書作成方法。
(付記9)
文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得し、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出し、
前記除去対象の文字を前記第1表記から除去した第2表記を作成し、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択し、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを辞書に登録する
処理をコンピュータに実行させることを特徴とする音声辞書作成プログラム。
(付記10)
辞書と、
前記辞書を作成する音声辞書作成装置と、
外部から受けた音声データの内容を示すテキストデータを、前記辞書を参照して生成する音声認識部と、
前記音声認識部から前記テキストデータを受け、前記テキストデータに応じたテキスト情報を取得する対話制御部と、
前記対話制御部から前記テキスト情報を受け、テキスト情報に対応する音声データを前記辞書を参照して生成する音声合成部とを備え、
前記音声辞書作成装置は、
文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得する入力部と、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出する抽出部と、
前記除去対象の文字を前記第1表記から除去した第2表記を作成する作成部と、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択する選択部と、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを前記辞書に登録する登録部と
を備えていることを特徴とする音声対話システム。
The invention described in the above embodiments is organized and disclosed as an appendix.
(Appendix 1)
An input unit for obtaining the first notation and the first reading corresponding to the notation and the reading of the character string, respectively;
An extraction unit for extracting a character to be removed that is estimated to have no portion corresponding to the first reading in the character string in the first notation;
A creation unit for creating a second notation in which the character to be removed is removed from the first notation;
Selection for selecting the temporary reading most similar to the first reading as the second reading from a plurality of temporary readings generated based on the reading of the characters in the first notation and the second notation And
A registration unit that registers the notation and reading of an unknown word included in the first notation in a dictionary based on the notation corresponding to the second reading and the second reading of the first notation and the second notation. A voice dictionary creation device comprising:
(Appendix 2)
In the speech dictionary creation device according to attachment 1,
The extraction unit generates the tentative reading corresponding to the first notation among a plurality of the tentative readings, and arranges the words in the first notation with different character types and in the same reading. One of two words is extracted as the character to be removed.
(Appendix 3)
In the speech dictionary creation device according to attachment 2,
When the registration unit extracts one of the two words as the character to be removed and registers the other notation and reading of the two words in the dictionary, the notation and reading of the two words Is registered in the dictionary.
(Appendix 4)
In the speech dictionary creation device according to any one of supplementary notes 1 to 3,
The extraction unit extracts at least one of a pre-registered removal target word and a pre-registered characteristic pattern character string as the removal target character.
(Appendix 5)
Obtain the first notation and the first reading corresponding to the notation and reading of the character string,
Extracting a character to be removed that is estimated to have no portion corresponding to the first reading from the character string in the first notation;
Creating a second representation in which the characters to be removed are removed from the first representation;
Selecting the temporary reading most similar to the first reading as a second reading from a plurality of temporary readings generated based on the reading of the characters in each of the first notation and the second notation;
Registering the notation and the reading of the unknown word included in the first notation in the dictionary based on the notation corresponding to the second reading of the first notation and the second notation and the second reading. A featured voice dictionary creation method.
(Appendix 6)
In the speech dictionary creation method according to attachment 5,
The temporary reading corresponding to the first notation among the plurality of temporary readings is generated, and one of two words arranged in the same reading with different character types among the words in the first notation Is extracted as the character to be removed.
(Appendix 7)
In the speech dictionary creation method according to attachment 6,
When one of the two words is extracted as the character to be removed and the other notation and reading of the two words are registered in the dictionary, the notation and reading of the two words are stored in the dictionary. A voice dictionary creation method characterized by registration.
(Appendix 8)
In the speech dictionary creation method according to any one of appendix 5 to appendix 7,
A speech dictionary creation method, wherein at least one of a word to be removed registered in advance and a character string having a characteristic pattern registered in advance is extracted as the character to be removed.
(Appendix 9)
Obtain the first notation and the first reading corresponding to the notation and reading of the character string,
Extracting a character to be removed that is estimated to have no portion corresponding to the first reading from the character string in the first notation;
Creating a second representation in which the characters to be removed are removed from the first representation;
Selecting the temporary reading most similar to the first reading as a second reading from a plurality of temporary readings generated based on the reading of the characters in each of the first notation and the second notation;
A process of registering an unknown word notation and a reading included in the first notation in a dictionary based on a notation corresponding to the second reading and the second reading of the first notation and the second notation. An audio dictionary creation program that is executed by a computer.
(Appendix 10)
A dictionary,
A voice dictionary creation device for creating the dictionary;
A voice recognition unit that generates text data indicating the content of voice data received from outside with reference to the dictionary;
A dialog control unit that receives the text data from the voice recognition unit and obtains text information according to the text data;
A voice synthesis unit that receives the text information from the dialogue control unit and generates voice data corresponding to the text information with reference to the dictionary;
The voice dictionary creation device
An input unit for obtaining the first notation and the first reading corresponding to the notation and the reading of the character string, respectively;
An extraction unit for extracting a character to be removed that is estimated to have no portion corresponding to the first reading in the character string in the first notation;
A creation unit for creating a second notation in which the character to be removed is removed from the first notation;
Selection for selecting the temporary reading most similar to the first reading as the second reading from a plurality of temporary readings generated based on the reading of the characters in the first notation and the second notation And
Registration for registering the notation and the reading of the unknown word included in the first notation in the dictionary based on the notation corresponding to the second reading and the second reading of the first notation and the second notation And a voice dialogue system characterized by comprising:

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。   From the above detailed description, features and advantages of the embodiments will become apparent. This is intended to cover the features and advantages of the embodiments described above without departing from the spirit and scope of the claims. Also, any improvement and modification should be readily conceivable by those having ordinary knowledge in the art. Therefore, there is no intention to limit the scope of the inventive embodiments to those described above, and appropriate modifications and equivalents included in the scope disclosed in the embodiments can be used.

ANALY‥文字解析部;CEXT‥連続表記抽出部;CP‥コンピュータ装置;DCTL‥対話制御部;DSYS‥音声辞書作成装置;EXTR‥抽出部;HDD‥ハードディスク装置;IF‥入出力インタフェース;INP‥入力部;JUDG‥判定部;MAT‥マッチング部;MEM‥メモリ;NGEN‥表記作成部;ODR‥光学ドライブ装置;PEXT‥パターン抽出部;PMEM‥パターン記憶部;PRED‥読み推定部;PU‥プロセッサ;REGP‥辞書登録部;SEL‥選択部;VREC‥音声認識部;VSYN‥音声合成部;VSYS‥音声対話システム   ANALY: Character analysis unit; CEXT: Continuous notation extraction unit: CP: Computer device; DCTL: Dialogue control unit; Unit: JUDG ... determination unit; MAT ... matching unit; MEM ... memory; NGEN ... notation creation unit; ODR ... optical drive device; PEXT ... pattern extraction unit; PMEM ... pattern storage unit; REGP ... dictionary registration part; SEL ... selection part; VREC ... voice recognition part; VSYN ... voice synthesis part; VSYS ... voice dialogue system

Claims (6)

文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得する入力部と、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出する抽出部と、
前記除去対象の文字を前記第1表記から除去した第2表記を作成する作成部と、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択する選択部と、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを辞書に登録する登録部と
を備えていることを特徴とする音声辞書作成装置。
An input unit for obtaining the first notation and the first reading corresponding to the notation and the reading of the character string, respectively;
An extraction unit for extracting a character to be removed that is estimated to have no portion corresponding to the first reading in the character string in the first notation;
A creation unit for creating a second notation in which the character to be removed is removed from the first notation;
Selection for selecting the temporary reading most similar to the first reading as the second reading from a plurality of temporary readings generated based on the reading of the characters in the first notation and the second notation And
A registration unit that registers the notation and reading of an unknown word included in the first notation in a dictionary based on the notation corresponding to the second reading and the second reading of the first notation and the second notation. A voice dictionary creation device comprising:
請求項1に記載の音声辞書作成装置において、
前記抽出部は、複数の前記仮の読みのうちの前記第1表記に対応する前記仮の読みを生成し、前記第1表記中の単語のうち、別の文字種で、かつ同一の読みで並ぶ2つの単語の一方を、前記除去対象の文字として抽出する
ことを特徴とする音声辞書作成装置。
The speech dictionary creation device according to claim 1,
The extraction unit generates the tentative reading corresponding to the first notation among a plurality of the tentative readings, and arranges the words in the first notation with different character types and in the same reading. One of two words is extracted as the character to be removed.
請求項2に記載の音声辞書作成装置において、
前記登録部は、前記2つの単語の一方が前記除去対象の文字として抽出され、前記2つの単語の他方の表記および読みが前記辞書に登録される場合、前記2つの単語の一方の表記および読みを、前記辞書に登録する
ことを特徴とする音声辞書作成装置。
In the voice dictionary creation device according to claim 2,
When the registration unit extracts one of the two words as the character to be removed and registers the other notation and reading of the two words in the dictionary, the notation and reading of the two words Is registered in the dictionary.
請求項1ないし請求項3のいずれか1項に記載の音声辞書作成装置において、
前記抽出部は、予め登録された除去対象の単語および予め登録された特徴的なパターンの文字列の少なくとも一方を、前記除去対象の文字として抽出する
ことを特徴とする音声辞書作成装置。
The speech dictionary creation device according to any one of claims 1 to 3,
The extraction unit extracts at least one of a pre-registered removal target word and a pre-registered characteristic pattern character string as the removal target character.
文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得し、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出し、
前記除去対象の文字を前記第1表記から除去した第2表記を作成し、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択し、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを辞書に登録する
ことを特徴とする音声辞書作成方法。
Obtain the first notation and the first reading corresponding to the notation and reading of the character string,
Extracting a character to be removed that is estimated to have no portion corresponding to the first reading from the character string in the first notation;
Creating a second representation in which the characters to be removed are removed from the first representation;
Selecting the temporary reading most similar to the first reading as a second reading from a plurality of temporary readings generated based on the reading of the characters in each of the first notation and the second notation;
Registering the notation and the reading of the unknown word included in the first notation in the dictionary based on the notation corresponding to the second reading of the first notation and the second notation and the second reading. A featured voice dictionary creation method.
文字列の表記および読みにそれぞれ対応する第1表記および第1読みを取得し、
前記第1表記中の文字列のうち、前記第1読みに対応する部分がないと推定される除去対象の文字を抽出し、
前記除去対象の文字を前記第1表記から除去した第2表記を作成し、
前記第1表記および前記第2表記の各表記中の文字の読みに基づいて生成される複数の仮の読みから、前記第1読みに最も類似する前記仮の読みを第2読みとして選択し、
前記第1表記および前記第2表記のうちの前記第2読みに対応する表記と前記第2読みとに基づいて、前記第1表記に含まれる未知語の表記および読みを辞書に登録する
処理をコンピュータに実行させることを特徴とする音声辞書作成プログラム。
Obtain the first notation and the first reading corresponding to the notation and reading of the character string,
Extracting a character to be removed that is estimated to have no portion corresponding to the first reading from the character string in the first notation;
Creating a second representation in which the characters to be removed are removed from the first representation;
Selecting the temporary reading most similar to the first reading as a second reading from a plurality of temporary readings generated based on the reading of the characters in each of the first notation and the second notation;
A process of registering an unknown word notation and a reading included in the first notation in a dictionary based on a notation corresponding to the second reading and the second reading of the first notation and the second notation. An audio dictionary creation program that is executed by a computer.
JP2014009298A 2014-01-22 2014-01-22 Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program Expired - Fee Related JP6248646B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014009298A JP6248646B2 (en) 2014-01-22 2014-01-22 Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014009298A JP6248646B2 (en) 2014-01-22 2014-01-22 Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program

Publications (2)

Publication Number Publication Date
JP2015138126A true JP2015138126A (en) 2015-07-30
JP6248646B2 JP6248646B2 (en) 2017-12-20

Family

ID=53769163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014009298A Expired - Fee Related JP6248646B2 (en) 2014-01-22 2014-01-22 Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program

Country Status (1)

Country Link
JP (1) JP6248646B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353159A (en) * 1999-06-11 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium
JP2002041081A (en) * 2000-07-28 2002-02-08 Sharp Corp Unit/method for preparing voice-recognition dictionary, voice-recognition apparatus, portable terminal, and program-recording media
JP2002099531A (en) * 2000-09-22 2002-04-05 Sony Corp Word registration system and word registration device, word transmission device and word registration method used therefor
JP2009204732A (en) * 2008-02-26 2009-09-10 Toshiba Corp Voice recognition device, and voice recognition dictionary creation method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353159A (en) * 1999-06-11 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium
JP2002041081A (en) * 2000-07-28 2002-02-08 Sharp Corp Unit/method for preparing voice-recognition dictionary, voice-recognition apparatus, portable terminal, and program-recording media
JP2002099531A (en) * 2000-09-22 2002-04-05 Sony Corp Word registration system and word registration device, word transmission device and word registration method used therefor
JP2009204732A (en) * 2008-02-26 2009-09-10 Toshiba Corp Voice recognition device, and voice recognition dictionary creation method and program

Also Published As

Publication number Publication date
JP6248646B2 (en) 2017-12-20

Similar Documents

Publication Publication Date Title
JP6258191B2 (en) Input method and system
JP4559946B2 (en) Input device, input method, and input program
US8155956B2 (en) Voice query extension method and system
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
KR100858545B1 (en) Apparatus and method for handwriting recognition
US20070100890A1 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
EP2144189A2 (en) Method for recognizing and translating characters in camera-based image
US20140180670A1 (en) General Dictionary for All Languages
KR100578188B1 (en) Character recognition apparatus and method
CN108121455B (en) Identification correction method and device
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP4048169B2 (en) A system to support text input by automatic space generation
JP6085149B2 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
JP6705352B2 (en) Language processing device, language processing method, and language processing program
KR101440887B1 (en) Method and apparatus of recognizing business card using image and voice information
US20220270589A1 (en) Information processing device, information processing method, and computer program product
JP2015138126A (en) Voice dictionary creation device, voice dictionary creation method and voice dictionary creation program
JP4622861B2 (en) Voice input system, voice input method, and voice input program
JP4941495B2 (en) User dictionary creation system, method, and program
JP7257010B2 (en) SEARCH SUPPORT SERVER, SEARCH SUPPORT METHOD, AND COMPUTER PROGRAM
KR100957416B1 (en) Method and System for Providing Search Service Using Synonym
JP2001134617A (en) Document retrieving device and recording medium
JP4177195B2 (en) Recognition grammar creation system
CN113705202A (en) Search input information error correction method and device, electronic equipment and storage medium
JP2002032366A (en) Morpheme analysis system and morpheme analysis method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161004

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20170803

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170803

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171106

R150 Certificate of patent or registration of utility model

Ref document number: 6248646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees