JP2005037838A - Recognition grammar forming system - Google Patents
Recognition grammar forming system Download PDFInfo
- Publication number
- JP2005037838A JP2005037838A JP2003277050A JP2003277050A JP2005037838A JP 2005037838 A JP2005037838 A JP 2005037838A JP 2003277050 A JP2003277050 A JP 2003277050A JP 2003277050 A JP2003277050 A JP 2003277050A JP 2005037838 A JP2005037838 A JP 2005037838A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- corpus
- candidate
- unit
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声認識機能を利用した、ボイスポータルなどの電話応答サービスや音声認識機能付きカーナビのような自動応答サービスに関し、特に、このようなサービスで利用される認識文法を作成するための認識文法作成システムに関する。 The present invention relates to a telephone response service such as a voice portal using a voice recognition function and an automatic response service such as a car navigation system with a voice recognition function, and in particular, recognition for creating a recognition grammar used in such a service. It relates to a grammar creation system.
昨今の代表的な音声認識方式には、連続単語認識、ワードスポッティングなどがあるが、いずれの方式も、認識語彙を別途記述する必要があり、認識語彙を記述したものは「認識文法」と呼ばれている。認識文法は、ユーザが発声する語彙を網羅する必要がある。なぜならば、認識文法に記述されている語彙だけしか認識できないため、認識文法の精度(ユーザ発声を網羅しているかどうか)が、直接的に認識率に繋がってしまうからである。そこで、精度の良い認識文法が求められる。ところが、認識文法作成の難しさは、人間の発声内容の多様性にある。言葉は時代によって変化していき、例えば昨今では省略した言い回しがはやっているように、はやり廃りがある。一つの概念を表現するのに、省略も含めて、いくつもの言い回しがあり、認識文法はこれを網羅しなければならない。 Recent typical speech recognition methods include continuous word recognition and word spotting, but each method requires the recognition vocabulary to be described separately, and the one that describes the recognition vocabulary is called "recognition grammar". It is. The recognition grammar needs to cover the vocabulary spoken by the user. This is because only the vocabulary described in the recognition grammar can be recognized, and the accuracy of the recognition grammar (whether it covers the user utterance) directly leads to the recognition rate. Therefore, an accurate recognition grammar is required. However, the difficulty in creating a recognition grammar lies in the diversity of human utterances. Languages change with the times, for example, they are obsolete just like the abbreviations we have omitted in recent years. There are a number of phrases, including omissions, to express a concept, and the recognition grammar must cover this.
例えば、日本全国の会社名の認識文法を作成する場合を想定する。正式語彙(正式名称)は、例えば会社名の正式名称を集めたデータベースがあるので、それをもとに認識文法を作成することが出来る。だが、省略形も含めて、会話文で良く使われる言い回しを格納したデータベースは存在しないので、そのような言い回しを収集する必要がある。正式語彙と、会話文で良く使われる言い回しとの組み合わせの例としては、「株式会社西日本旅客鉄道」という正式語彙に対して「JR西日本」という言い回し、「全日空」という正式語彙に対して「ANA(アナ)」という言い回しなどが挙げられる。 For example, assume that a recognition grammar for company names in Japan is created. The official vocabulary (official name) has, for example, a database that collects the official names of company names, and based on this database, a recognition grammar can be created. However, there is no database that stores phrases often used in conversations, including abbreviations, so it is necessary to collect such phrases. Examples of combinations of formal vocabulary and phrases often used in conversational sentences include the phrase “JR West” for the official vocabulary “West Japan Railway Company” and “ANA” for the official vocabulary “All Nippon Airways”. (Ana) "and so on.
このような有名な会社である場合は、言い回しを思いつくことが可能であるが、そうでない場合、手近な手段としては、例えば、WWWの検索エンジンを利用し、言い回しを収集していた。また、言い回しには、経験則による一定のルールがあり、例えば、省略する、頭文字をとる、などの方法で作成されることが多い。 In the case of such a well-known company, it is possible to come up with phrases, but in other cases, as a handy means, for example, a WWW search engine is used to collect phrases. In addition, there are certain rules based on empirical rules, and for example, they are often created by a method such as omitting or taking an initial letter.
ここで、認識文法を作成するための従来の手順を図14に示す。すなわち、従来は、まず、元になる語彙から省略名称などの言い回しの候補を作成し(ステップS91)、作成した言い回し候補が実際に存在するかを確かめるために大規模テキストコーパスを検索していた(ステップS92)。このような大規模テキストコーパスとしては、例えばWWW(World Wide Web)などが用いられている。そして、例えば、大規模テキストコーパスの検索で存在が確認された言い回し候補のみを語彙データベースに登録するなど、検索結果を語彙データベースに反映させ(ステップS93)、その後、語彙データベースから認識文法を作成していた(ステップS94)。 Here, FIG. 14 shows a conventional procedure for creating a recognition grammar. That is, conventionally, first, a phrase candidate such as an abbreviated name is created from the original vocabulary (step S91), and a large-scale text corpus is searched to check whether the created phrase candidate actually exists. (Step S92). As such a large-scale text corpus, for example, WWW (World Wide Web) is used. Then, for example, the search results are reflected in the vocabulary database, such as registering only the wording candidates that have been confirmed by the search of the large text corpus in the vocabulary database (step S93), and then the recognition grammar is created from the vocabulary database. (Step S94).
なお、従来、ユーザ固有の語彙や表現をユーザ言語モデルに追加することにより、ユーザ固有の発話バリエーションに対応して認識性能を高めようとする音声認識文章入力装置が、特許文献1にも開示されている。
ところが、上述の従来の手順によれば、言い回し候補が存在するか否かを確認するために、WWWなどの大規模テキストコーパスを闇雲に検索していたため、言い回し候補とテキストとしては同じであるが異なる意味を持つ単語が検索ヒットした場合であっても、その言い回し候補が存在すると誤って判断されることが多かった。そして、このような誤判定に基づいて語彙データベースに登録された語彙からそのまま認識文法を作成すると、精度の低い文法しか得られないという問題があった。 However, according to the above-described conventional procedure, a large text corpus such as the WWW is searched in the dark cloud in order to check whether or not there is a wording candidate, so the wording candidate and the text are the same. Even when a word having a different meaning is a search hit, it is often erroneously determined that the wording candidate exists. Then, if the recognition grammar is generated as it is from the vocabulary registered in the vocabulary database based on such a misjudgment, there is a problem that only a grammar with low accuracy can be obtained.
本発明は、上述の問題を解決するために、検索対象のテキストコーパスを選別することにより、言い回し候補の適合性の判断精度を向上させることができ、精度の高い認識文法を作成することが可能な認識文法作成システムを提供することを目的とする。 In order to solve the above-mentioned problem, the present invention can improve the accuracy of determining the suitability of wording candidates by selecting a text corpus to be searched, and can create a recognition grammar with high accuracy. It aims at providing a simple recognition grammar creation system.
上記の目的を達成するために、本発明にかかる認識文法作成システムは、正式語彙とその言い回しを記憶する語彙データベースと、言い回し候補の適合性を調べるための検索対象とするコーパスを選択し、選択したコーパスへ当該言い回し候補の検索を依頼する検索コーパス選定部と、前記検索コーパス選定部によって選択されたコーパスにおける検索結果を解析する検索結果解析部と、前記検索結果解析部による解析結果と所定の基準に基づいて言い回し候補の適合性を判断し、言い回し候補のうち適合性を有する言い回しを前記語彙データベースへ格納するデータベース更新部と、前記語彙データベースから語彙を読み出して文法仕様に従った当該語彙の認識文法を作成する文法作成部とを備えた構成である。 In order to achieve the above object, the recognition grammar creation system according to the present invention selects and selects a vocabulary database for storing formal vocabularies and their wordings, and a corpus to be searched for checking suitability of wording candidates. A search corpus selection unit that requests the corpus to search for the wording candidate, a search result analysis unit that analyzes a search result in the corpus selected by the search corpus selection unit, an analysis result by the search result analysis unit, and a predetermined result A database update unit that determines the suitability of the wording candidates based on the criteria, and stores the wording having relevance among the wording candidates in the vocabulary database, and reads out the vocabulary from the vocabulary database and reads the vocabulary according to the grammar specification The configuration includes a grammar creation unit for creating a recognition grammar.
この構成によれば、検索コーパス選定部において、言い回し候補の適合性を調べるための検索対象とするコーパスを適切に選択することにより、実際には使用されない言い回しが語彙データベースに登録されることを防止できる。このように実際に使用される言い回しを収録した語彙データベースを用いることにより、精度の高い認識文法を作成することが可能となる。 According to this configuration, the search corpus selection unit appropriately selects a corpus to be searched for checking the suitability of the phrase candidates, thereby preventing a phrase that is not actually used from being registered in the vocabulary database. it can. In this way, it is possible to create a recognition grammar with high accuracy by using a vocabulary database that contains phrases that are actually used.
上記構成にかかる認識文法作成システムにおいて、前記検索コーパス選定部は、検索対象の候補とするコーパスである候補コーパスに関する情報を記憶する候補コーパスデータベースと、候補コーパスの検索キーワードとして、前記正式語彙に関連する少なくとも一つのキーワードを入力し、当該検索キーワードに従ってインターネット上で候補コーパスに関する情報を検索する候補コーパス検索部と、前記候補コーパス検索部で得られた情報を前記候補コーパスデータベースに登録する候補コーパス登録部とを備え、前記検索コーパス選定部が、前記候補コーパスデータベースに登録された情報を参照し、検索対象とするコーパスを選定する態様とすることが好ましい。 In the recognition grammar creation system according to the above configuration, the search corpus selection unit includes a candidate corpus database that stores information on a candidate corpus that is a candidate corpus to be searched, and a search keyword for the candidate corpus that is related to the formal vocabulary. A candidate corpus search unit that inputs at least one keyword to search for information on candidate corpora on the Internet according to the search keyword, and candidate corpus registration that registers information obtained by the candidate corpus search unit in the candidate corpus database It is preferable that the search corpus selection unit refers to information registered in the candidate corpus database to select a corpus to be searched.
上記の態様において、「候補コーパスに関する情報」とは、候補コーパスへのアクセス情報などを含む。上記の態様によれば、検索コーパス選定部の選択候補とされる候補コーパスに関する情報を候補コーパスデータベースに登録しておき、検索コーパス選定部がこれを参照することにより、言い回し候補の適合性を調べるための検索対象とするコーパスを適切に選択することができる。 In the above aspect, “information on candidate corpus” includes access information to the candidate corpus. According to the above aspect, information on candidate corpora that are candidates for selection of the search corpus selection unit is registered in the candidate corpus database, and the search corpus selection unit refers to this to check the suitability of the wording candidate. Therefore, it is possible to appropriately select a corpus to be searched for.
上記構成にかかる認識文法作成システムにおいて、前記検索結果解析部が、前記コーパスにおける前記言い回し候補の出現情報を生成する出現情報生成部を備え、当該出現情報生成部による出現情報の生成結果を、前記解析結果として前記データベース更新部へ渡す態様とすることも好ましい。コーパスにおける語彙の出現情報は、その語彙が使われる度合いであると見ることができるので、使われる度合いに応じて各言い回し候補を語彙データベースに格納するかどうかを決定することにより、精度の高い語彙データベースを作成でき、ひいては精度の高い認識文法を作成できるからである。 In the recognition grammar creation system according to the above configuration, the search result analysis unit includes an appearance information generation unit that generates the appearance information of the wording candidate in the corpus, and the generation result of the appearance information by the appearance information generation unit is It is also preferable that the analysis result is passed to the database update unit. The appearance information of the vocabulary in the corpus can be regarded as the degree to which the vocabulary is used. Therefore, by determining whether each wording candidate is stored in the vocabulary database according to the degree to which the vocabulary is used, a highly accurate vocabulary is obtained. This is because a database can be created, and thus a highly accurate recognition grammar can be created.
上記の構成にかかる認識文法作成システムにおいて、前記データベース更新部が、言い回しを前記語彙データベースへ格納する際に、当該言い回しについて前記出現情報生成部により生成された出現情報を、当該言い回しに関連づけて前記語彙データベースに格納し、前記認識文法作成システムは、さらに、前記語彙データベースから、前記出現情報に基づいて認識文法を作成すべき語彙を選択して前記文法作成部へ渡す文法語彙判別部を備えた態様とすることも好ましい。コーパスにおける語彙の出現情報は、その語彙が使われる度合いであると見ることができるので、文法を作成する際に、その語彙を文法に追加するかどうかの判断基準としても役に立つからである。 In the recognition grammar creation system according to the above configuration, when the database update unit stores the wording in the vocabulary database, the appearance information generated by the appearance information generation unit for the wording is associated with the wording and the wording is generated. The recognition grammar creation system further includes a grammar vocabulary determination unit that selects a vocabulary for which a recognition grammar should be created from the vocabulary database and passes the grammar creation unit to the grammar creation unit. It is also preferable to adopt an embodiment. This is because the appearance information of the vocabulary in the corpus can be regarded as the degree to which the vocabulary is used, so that it is useful as a criterion for determining whether to add the vocabulary to the grammar when creating the grammar.
上記の構成にかかる認識文法作成システムにおいて、前記文法作成部が、前記出現情報に基づいて、単語の優先度を示す情報を持つ認識文法を作成する態様としても良い。その語彙が使われる度合いを表す情報を認識文法に持たせることにより、この認識文法を用いた音声認識の精度を向上させることができるからである。 In the recognition grammar creation system according to the above configuration, the grammar creation unit may create a recognition grammar having information indicating a word priority based on the appearance information. This is because the accuracy of speech recognition using the recognition grammar can be improved by providing the recognition grammar with information indicating the degree to which the vocabulary is used.
本発明によれば、検索対象のテキストコーパスを選定することにより、言い回し候補の適合性の判断精度を向上させることができ、精度の高い認識文法を作成することが可能な認識文法作成システムを作成できる。 According to the present invention, by selecting a text corpus to be searched, a recognition grammar creation system capable of improving the accuracy of determining the suitability of wording candidates and creating a highly accurate recognition grammar is created. it can.
図1は、本発明の一実施形態にかかる認識文法作成システムの概略構成を示すブロック図である。図1に示すように、本実施形態にかかる認識文法作成システムは、語彙データベース1、語彙候補作成部2、文法作成部3、データベース編集部4、類義語データベース5、データベース更新部6、検索コーパス選定部7、検索結果解析部9、および、文法記憶部10を備えている。
FIG. 1 is a block diagram showing a schematic configuration of a recognition grammar creation system according to an embodiment of the present invention. As shown in FIG. 1, the recognition grammar creation system according to the present embodiment includes a
この認識文法作成システムは、語彙候補作成部2によって正式語彙から言い回し候補を作成し、システム外の大規模コーパス8に当該言い回し候補の検索を依頼する。大規模コーパス8としては、認識文法作成システムにローカル接続されるWWWや、インターネットなどの外部ネットワークを介して接続されるWWWなどを用いることができる。なお、WWW以外のコーパスを用いることも、もちろん可能である。
In this recognition grammar creation system, the vocabulary
大規模コーパス8は、依頼された検索を実行し、検索結果を検索結果解析部9へ送る。検索結果解析部9は、大規模コーパス8から送られた検索結果に基づいて、当該言い回し候補の適合性を判断し、判断結果をデータベース更新部6へ渡す。そして、データベース更新部6が、検索結果解析部9により適合すると判断された言い回し候補のみを、語彙データベース1へ登録する。
The large-
以下、各部の構成および動作について、より詳しく説明する。 Hereinafter, the configuration and operation of each unit will be described in more detail.
語彙データベース1は、正式語彙と、正式語彙の変形として会話文で用いられるいわゆる「言い回し」とを対応付けて記憶している。例えば、図2に、語彙データベース1に登録されるデータの例を示す。この例では、語彙データベース1は、1つのエントリが、ID(識別番号)と、そのエントリに含まれる語彙の個数を表す語彙個数と、語彙個数分の語彙(第1語彙、第2語彙、…)とによって構成されている。第1語彙には、元になる語彙(正式語彙)が登録され、第2語彙以降には第1語彙の言い回しが登録される。例えば、図2の例では、「総務部」という第1語彙(正式語彙)の言い回しとして、その省略形である「総務」という語彙が登録されている。なお、この例では、各エントリがIDおよび語彙個数を有するものとしたが、これらは必須ではない。
The
データベース編集部4は、キーボードやマウス等の入力デバイスあるいはディスプレイ等の出力デバイス(いずれも図示せず)を含み、語彙データベース1のエントリに対してユーザが編集作業を行ったり、語彙データベース1の内容をユーザが確認したりすることが可能である。例えば、語彙データベース1に新たな語彙エントリを作成する場合は、ユーザは、データベース編集部4を用いて正式語彙(第1語彙)を入力する。また、思いつく言い回しがあれば、同様に、データベース編集部4を用いて、第2語彙以降に追加することができる。
The
語彙候補作成部2は、エントリの第1語彙に登録された正式語彙から、所定のルールに従って、その正式語彙の言い回しとして語彙データベース1へ登録するための候補(言い回し候補)を生成する。本実施形態では、語彙候補作成部2は、生成した言い回し候補を、語彙データベース1の第2語彙以降に登録する。なお、語彙候補作成部2は、言い回し候補を作成する際に、類義語データベース5を参照しても良い。
The vocabulary
ここで、語彙候補作成部2による言い回し候補の生成手順について、具体例を挙げて説明する。
Here, a procedure for generating wording candidates by the vocabulary
語彙候補作成部2は、前述したように、所定のルールに従って言い回し候補を生成するが、この所定のルールとしては、例えば以下のような経験則(ヒューリスティックルール)が考えられる。なお、以下の4つはあくまでも例示であって、適切な言い回しを生成できることを条件として、これ以外の任意のルールを適用することが可能である。
As described above, the vocabulary
(1)「○○部」という名称は、「部」を省略し、「○○」と呼ばれる。 (1) The name “XXX” is called “XXX” by omitting “part”.
(2)「○○研究部」は、「研」の後ろを省略して「○○研」と呼ばれる。 (2) “XX Research Department” is called “XX Lab” by omitting the back of “ken”.
(3)複数単語で構成される場合、単語の頭文字をとって呼ばれる。 (3) When composed of a plurality of words, it is called by taking the first letter of the word.
(4)複数単語で構成される場合、単語の頭文字のアルファベットをとって呼ばれる。 (4) When composed of a plurality of words, it is called by taking the first letter of the word.
例えば、ユーザが、データベース編集部4を用いて、図2に示すようなエントリを語彙データベース1に作成したとすると、語彙候補作成部2は、上述の経験則を用いて言い回し候補を生成し、各エントリの第2語彙以降に登録する。例えば、その結果は、図3に示すようになる。図3に示す例では、「ソフトウェア事業本部(そふとうぇあじぎょうほんぶ)」という正式語彙に対して、語彙候補作成部2が、「ソ事本(そじほん)」および「SJH(えすじぇいえいち)」という言い回し候補を生成し、エントリの第2語彙および第3語彙に登録している。また、「メディアソリューション研究部(めでぃあそりゅーしょんけんきゅうぶ)」という正式語彙に対して、語彙候補作成部2が、「メディアソリューション研(めでぃあそりゅーしょんけん)」、「メソ研(めそけん)」、「MS研究部(えむえすけんきゅうぶ)」、「MS研(えむえすけん)」という4種類の言い回し候補を生成し、エントリの第2〜第5語彙に登録している。
For example, if the user uses the
ここで、省略によって言い回し候補を作成するための語彙候補作成部2の構成例のいくつかについて、図4〜図7を用いて具体的に説明する。
Here, some examples of the configuration of the vocabulary
図4に示す構成例は、例えば「ソフトウェア事業本部」から「ソ事本」のように複数単語の頭文字をとった言い回し候補を作成するための構成である。この場合、語彙候補作成部2には、形態素解析部21、頭文字取得部22、頭文字合成部23を設ければよい。形態素解析部21は、入力された正式語彙の形態素解析を行い、品詞毎に分割する。例えば、「ソフトウェア事業本部」という正式語彙は、「ソフトウェア」、「事業」「本部」という3つの名詞に分割される。頭文字取得部22は、分割された品詞の頭の1文字をとる。すなわち、上記の場合は、「ソ」、「事」、「本」が取得される。次に、頭文字合成部23が、頭文字取得部22により取得された文字を、語順に従って結合することにより、言い回し候補として「ソ事本」が得られる。
The configuration example shown in FIG. 4 is a configuration for creating a wording candidate using a plurality of initial words such as “Software Business Headquarters” to “Soviet Books”. In this case, the vocabulary
また、図5に示す構成例は、例えば「メディアソリューション研究部」から「MS研究部」という言い回し候補を作成するための構成である。この場合、語彙候補作成部2には、上述の形態素解析部21、頭文字取得部22、頭文字合成部23の他に、省略規則適用部24、省略作成規則記憶部25、アルファベット変換部26を設ければよい。
Further, the configuration example shown in FIG. 5 is a configuration for creating a wording candidate “MS Research Department” from “Media Solution Research Department”, for example. In this case, the vocabulary
図5に示す構成例において、例えば上述の「メディアソリューション研究部」が正式語彙として入力されると、形態素解析部21は、これを、「メディア」、「ソリューション」、「研究」、「部」という4つの名詞に分割し、省略規則適用部24へ渡す。省略規則適用部24は、省略作成規則記憶部25を参照し、省略作成規則を適用することによって省略形を作成する。省略作成規則記憶部25には、経験則などから得られる省略規則があらかじめ記憶されている。ここに記憶されている省略規則とは、例えば、以下のようなものである。
In the configuration example shown in FIG. 5, for example, when the above-mentioned “media solution research department” is input as a formal vocabulary, the
(1)「研究所」は「研」になる。 (1) “Research Institute” becomes “Research”.
(2)「研究部」は「研」になる。 (2) “Research Department” becomes “Lab”.
(3)「研究センター」は「研」になる。 (3) “Research Center” becomes “Lab”.
(4)「○○部」は「○○」になる。 (4) “XXX part” becomes “XX”.
このような省略規則を適用することにより、省略規則適用部24は、上記の4つの名詞のうち、「研究」および「部」という2つの名詞から、「研」という省略形を作成し、省略しなかった「メディア」、「ソリューション」と共に、アルファベット変換部26へ渡す。アルファベット変換部26は、カタカナ文字をアルファベットに変換する。次に、頭文字取得部22が、単語の頭文字をとる。これにより、「M」、「S」、「研」が取得される。最後に、頭文字合成部23が、頭文字を語順に従って結合することにより、「MS研」という言い回し候補が得られる。
By applying such abbreviated rules, the abbreviated
なお、図4または図5に示す構成例において、頭文字取得部22は、頭の1文字だけを取得しているが、例えば、「パーソナルコンピュータ」が「パソコン」となるように、頭の2文字を取得する場合もある。
In the configuration example shown in FIG. 4 or 5, the
図6に示す構成例は、例えば「メディアソリューション研究部」から「メディアソリューション研」という言い回し候補を作成するための構成である。この場合、語彙候補作成部2には、上述の形態素解析部21および省略規則適用部24の他に、単語合成部27を設ければよい。
The configuration example illustrated in FIG. 6 is a configuration for creating a wording candidate “Media Solution Lab” from “Media Solution Research Department”, for example. In this case, the vocabulary
この構成例において、例えば上述の「メディアソリューション研究部」が入力されると、形態素解析部21は、これを、「メディア」、「ソリューション」、「研究」、「部」という4つの名詞に分割し、省略規則適用部24へ渡す。省略規則適用部24は、省略作成規則記憶部25を参照することにより、「メディア」、「ソリューション」、「研」という単語を生成する。単語合成部27が、これらの単語を語順に結合することにより、「メディアソリューション研」という言い回し候補が得られる。
In this configuration example, for example, when the above-mentioned “media solution research department” is input, the
あるいは、図7に示す構成例は、語彙候補作成部2が、形態素解析も行わず、省略作成規則記憶部25にあらかじめ記憶されている省略規則のみに従って省略形を作成し、それを言い回し候補とする構成である。この場合、例えば、「『遺伝因子』は『遺伝子』になる」という省略規則が省略作成規則記憶部25にあらかじめ記憶されていれば、「遺伝因子」という正式語彙が入力されると、「遺伝子」という言い回し候補が作成される。
Alternatively, in the configuration example illustrated in FIG. 7, the vocabulary
以上のように、語彙候補作成部2が正式語彙から言い回し候補を作成して語彙データベース1へ登録すると、本実施形態の認識文法作成システムでは、語彙候補作成部2が生成して登録した言い回し候補が実際に存在するかどうかを確認するために、大規模コーパス8に検索を依頼する。大規模コーパス8は、例えば図1に示すように、多数のテキストコーパス8b1、8b2、…と、各コーパスに対して検索を実行するための検索部8a1、8a2、…とを有する。テキストコーパス8bとしては、例えば、WWWのサイトを用いることができ、検索部8aとしてはWWW用の検索エンジンを用いることができる。なお、図1では、検索部8aとテキストコーパス8bとの組み合わせを二組だけ図示したが、その数は任意である。
As described above, when the vocabulary
ところで、従来のように、大規模コーパス8を闇雲に検索すると、言い回し候補と同じテキストであるが異なる意味を持つ単語が検索にヒットする可能性がある。例えば、「SJH」は「スウェーデンジュニアハイスクール」の略語として、「MS研」は「マルチスタイル研究開発センター」の略語として用いられている例があった場合、このような検索結果に従うと、言い回し候補の適合性を誤って判断してしまうおそれがある。
By the way, if the large-
そこで、本実施形態の認識文法作成システムでは、検索コーパス選定部7が、大規模コーパス8内の多数のテキストコーパス8bから、検索対象とするテキストコーパスを選別するようになっている。例えば、WWW上の特定のサイトを、検索対象として選別することが考えられる。
Therefore, in the recognition grammar creation system of this embodiment, the search
このため、検索コーパス選定部7は、例えば、図8に示すように、候補コーパス登録部72および候補コーパスデータベース73を備えている。候補コーパス登録部72は、入出力デバイス(図示せず)を備え、ユーザに候補コーパスを入力させる。例えば、ユーザが、前記入出力デバイスを用いて、検索対象として適切と考えるWWWサイトのURL等を入力すると、候補コーパス登録部72は、そのWWWサイトを候補コーパスデータベース73へ登録する。
Therefore, the search
このように、検索コーパス選定部7の候補コーパスデータベース73に検索対象とするテキストコーパスが登録されると、それ以降、検索コーパス選定部7は、候補コーパスデータベース73に登録されているテキストコーパスに対して、言い回し候補の適合性を調べるための検索を依頼する。すなわち、例えば、候補コーパスデータベース73に、図2に示すテキストコーパス8b1が登録されたとすると、検索コーパス選定部7は、このテキストコーパス8b1に対応する検索エンジン8a1へ、言い回し候補の適合性を調べるための検索を依頼する。
As described above, when a text corpus to be searched is registered in the
また、上記の例では、どのテキストコーパスを検索対象とするかをユーザが決定するものとしたが、検索対象とするテキストコーパスの選択も検索コーパス選定部7が行うようにすることも可能である。この場合、図9に示すように、検索コーパス選定部7に、上述の候補コーパス登録部72および候補コーパスデータベース73に加えて、候補コーパス検索部71を設ける。候補コーパス検索部71は、正式語彙(第1語彙)とその正式語彙に関連するキーワードとしてユーザが与えるキーワードとの少なくとも一方を含むWWWサイトを、大規模コーパス8から検索する。そして、この検索の結果として見つかったWWWサイトを、候補コーパスデータベース73に登録する。
In the above example, the user determines which text corpus is the search target. However, the search
なお、上述のようにユーザがキーワードを与えるのではなく、検索コーパス選定部7が、概念階層データベース(図示せず)を利用して、検索対象コーパスを選別するためのキーワードを自動抽出するようにしても良い。概念階層データベースを用いれば、例えば、正式語彙が「パーソナルコンピュータ」、「メインフレーム」、「ワークステーション」などである場合、その上位概念である「コンピュータ」を抽出できる。そして、これをキーワードとして用いて、大規模コーパス8から検索対象コーパスを選別すれば良い。
Note that the search
あるいは、複数の言い回し候補がある場合は、一つの言い回し候補の適合性を調べるために検索対象とするテキストコーパスを、正式語彙(第1語彙)と他の言い回し候補との組み合わせをキーワードとした検索によって選定することも効果的である。例えば、図3に示すID2のエントリを例にとれば、第2語彙として登録されている「メディアソリューション研」の適合性を調べるためのテキストコーパスを、
(1)「メディアソリューション研究部」
(2)「メディアソリューション研究部」と「メソ研」とのAND検索
(3)「メディアソリューション研究部」と「MS研究部」とのAND検索
(4)「メディアソリューション研究部」と「MS研」とのAND検索
によって、大規模コーパス8から選定する。
Alternatively, when there are multiple wording candidates, a text corpus to be searched for checking the suitability of one wording candidate is searched using a combination of the formal vocabulary (first vocabulary) and another wording candidate as a keyword. It is also effective to select by. For example, taking the entry of ID2 shown in FIG. 3 as an example, a text corpus for examining the suitability of “Media Solution Lab” registered as the second vocabulary,
(1) "Media Solution Research Department"
(2) AND search between “Media Solution Research Department” and “Meso Lab” (3) AND search between “Media Solution Research Department” and “MS Research Department” (4) “Media Solution Research Department” and “MS Lab” Is selected from the large-
以上のように、検索コーパス選定部7は、言い回し候補のそれぞれについて、その言い回し候補が実際に用いられるものであるかを判定するための検索対象テキストコーパスを、大規模コーパス8内の多数のテキストコーパス8bの中から1つまたは複数選定し、選定したテキストコーパス8bに対応する検索エンジン8aに対して、その言い回し候補の検索を依頼する。その検索結果は、検索結果解析部9へ送られる。
As described above, the search
検索結果解析部9では、言い回し候補が検索対象テキストコーパスに存在した場合(検索ヒットした場合)は、その言い回し候補が適合性を有する(すなわちその言い回し候補が実際に用いられるものである)と判断し、逆に、言い回し候補が検索対象テキストコーパスに存在しなかった場合は、その言い回し候補には適合性がない(実際には用いられない)と判断する。判断結果はデータベース更新部6へ送られ、適合性がないと判断された言い回し候補は、データ更新部6によって、語彙データベース1のエントリから削除される。
When the wording candidate exists in the search target text corpus (when a search hit occurs), the search result analysis unit 9 determines that the wording candidate has relevance (that is, the wording candidate is actually used). On the other hand, if the wording candidate does not exist in the search target text corpus, it is determined that the wording candidate is not compatible (not actually used). The determination result is sent to the
例えば、図3に示したような言い回し候補について、検索コーパス選定部7によって選定されたテキストコーパス8bを用いて検索を行った結果、第2エントリの第3語彙である「SJH」と第3エントリの第3語彙である「メソ研」が検索ヒットしなかったとする。この場合、データ更新部6がこれらの言い回し候補をエントリから削除することにより、語彙データベース1の記憶内容は、図10に示すようになる。
For example, as a result of searching for the wording candidate as shown in FIG. 3 using the text corpus 8b selected by the search
なお、上記では、検索結果解析部9が、検索ヒットの有無に応じて言い回し候補の適合性を判断し、適合しないと判断された言い回し候補をデータベース更新部6がエントリから削除する例を述べたが、本発明における言い回し候補の適合性の判断手法および判断結果の語彙データベースへの反映方法は、これに限定されるわけではない。
In the above description, the search result analysis unit 9 determines the suitability of the wording candidates according to the presence or absence of the search hit, and the
例えば、検索結果解析部9が、言い回し候補の出現情報に応じてその言い回し候補の適合性を判断するようにすることも有効である。テキストコーパス内における語彙の出現情報は、その語彙が使われる度合いであると見ることができる。このような意味においても、出現情報は、文法を作成する際に、その語彙を文法に追加するかどうかの判断基準としても役に立つ。一般的に、認識対象の語彙数が多いほど認識率は下がる傾向にあるので、文法の語彙を制限する場合もあり、そのような場合に出現情報を利用することもできる。 For example, it is also effective for the search result analysis unit 9 to determine the suitability of the wording candidate according to the appearance information of the wording candidate. Vocabulary appearance information in a text corpus can be viewed as the degree to which the vocabulary is used. Even in this sense, the appearance information is useful as a criterion for determining whether or not to add the vocabulary to the grammar when creating the grammar. Generally, since the recognition rate tends to decrease as the number of vocabulary to be recognized increases, the grammatical vocabulary may be limited, and in such a case, appearance information can be used.
また、適合しない(あるいは適合度が低い)と判断された言い回し候補を語彙データベース1から削除せずに残しておき、文法作成部3が、文法を作成する際に、出現情報に応じて、文法に登録する言い回し候補を決定するようにしても良い。
Further, the phrasing candidate determined to be incompatible (or low in fitness) is left without being deleted from the
また、出現情報をそのまま文法に記述することも可能である。単語に出現情報(一般的に確率と呼ばれる場合が多い)を付けて文法に記載すると、認識エンジンで、認識単語の照合時に利用される。このような出現情報は、語彙と共に語彙データベース1に登録することが好ましい。また、各言い回し候補の出現情報の表し方としては、少なくとも以下の3種類が考えられるが、これらに限定されるものではない。
It is also possible to describe the appearance information as it is in the grammar. When appearance information (generally called a probability in many cases) is added to a word and described in the grammar, it is used by the recognition engine at the time of matching the recognized word. Such appearance information is preferably registered in the
(1)検索ヒットした語彙の総数に対する各言い回し候補の出現回数の割合
(2)各言い回し候補の出現回数が所定の閾値を超えたか否か(2値表現)
(3)各言い回し候補の出現回数そのもの
例えば、「メディアソリューション研究部」とその言い回し候補を、検索コーパス選定部7が選定したテキストコーパス8bで検索した場合のヒット件数が、図11(a)に示すとおりであるものとする。
(1) Ratio of the number of appearances of each wording candidate with respect to the total number of search hit words (2) Whether or not the number of appearances of each wording candidate has exceeded a predetermined threshold (binary expression)
(3) The number of occurrences of each wording candidate itself For example, the number of hits when searching the “media solution research department” and the wording candidate using the text corpus 8b selected by the search
検索結果解析部9は、図11(a)に示したヒット件数から、語彙のヒット件数の合計(153件)に対する各語彙の出現情報を、図11(b)に示すように、相対値として算出する。このように相対値として算出することにより、語彙によってヒット件数に大きなばらつきがある場合でも、計算値の取り扱いが容易となる。検索結果解析部9は、例えば、このように算出した出現情報が所定の閾値(例えば図11(b)の場合であれば10%以上)を超える言い回し候補について、適合性があると判断する。 As shown in FIG. 11 (b), the search result analyzing unit 9 uses the hit counts shown in FIG. 11 (a) as relative values for the appearance information of each vocabulary with respect to the total number of vocabulary hits (153). calculate. By calculating as a relative value in this way, even when there is a large variation in the number of hits depending on the vocabulary, handling of the calculated value becomes easy. For example, the search result analysis unit 9 determines that the phrase candidates whose appearance information calculated in this way exceeds a predetermined threshold (for example, 10% or more in the case of FIG. 11B) are compatible.
次に、以上のように作成された語彙データベース1から文法作成部3が認識文法を作成する手順について説明する。文法作成部3は、語彙データベース1から語彙データを読み出し、与えられた文法仕様に従って文法を作成する。例えば、SRGS仕様では、
<rule id="部署名">
<one-of>
<item>そうむぶ</item>
<item>そうむ</item>
</one-of>
<one-of>
<item>そふとうぇあじぎょうほんぶ</item>
<item>そじほん</item>
</one-of>
<one-of>
<item>めでぃあそりゅーしょんけんきゅうぶ</item>
<item>めでぃあそりゅーしょんけん</item>
<item>えむえすけんきゅうぶ</item>
<item>えむえすけん</item>
</one-of>
</rule>
</grammar>
のような認識文法を作成する。
Next, a procedure in which the
<Rule id = "group name">
<One-of>
<Item> Somubu </ item>
<Item> Some </ item>
</ One-of>
<One-of>
<Item> Soft Ajigyo Honbu </ item>
<Item> Sojihon </ item>
</ One-of>
<One-of>
<Item> Measy Assuryukenkyubu </ item>
<Item> Measy Assuryuken </ item>
<Item> Emusuke Kenkyubu / item
<Item> Emusuke </ item>
</ One-of>
</ Rule>
</ Grammar>
Create a recognition grammar like
このように作成された認識文法は、文法作成部3から文法記憶部10へ送られ、記憶される。文法記憶部10は、任意の記憶装置または記憶媒体によって実現される。文法記憶部10に記憶された認識文法は、例えばボイスポータルなどの電話応答サービスシステムや、音声認識機能付きカーナビのような自動応答サービスシステム内の記憶装置または記憶媒体にコピーされて、これらのシステムにおける音声認識に用いられる。あるいは、文法記憶部10そのものを本実施形態の音声認識文法作成システムから取り外し、これらのシステムに組み込むことも可能である。
The recognition grammar created in this way is sent from the
なお、認識文法を作成する際に、出現情報を利用しても良い。この場合は、例えば各語彙の出現頻度が図12に示すとおりであったとすると、第1エントリについては、「そうむ」の出現頻度40に対する「そうむぶ」の出現頻度60の比は、1:1.5であるので、
<item weight="1.5">そうむぶ</item>
<item weight="1">そうむ</item>
のようになる。すなわち、この認識文法には、出現情報から得られた、各語彙の優先度を示す情報が含まれている。
Note that appearance information may be used when creating a recognition grammar. In this case, for example, if the appearance frequency of each vocabulary is as shown in FIG. 12, the ratio of the
<Item weight = "1.5"> Somu </ </ item>
<Item weight = "1"> Som </ item>
become that way. That is, the recognition grammar includes information indicating the priority of each vocabulary obtained from the appearance information.
なお、語彙データベース1に出現情報も登録されている場合、認識文法の精度をさらに向上させるために、閾値を設け、閾値以上の語彙から認識文法を作成するようにすることも好ましい。この場合、図13に示すように、語彙データベース1と文法作成部3との間に、語彙データベース1の出現情報と閾値とを比較することにより文法作成部3へ渡すべき語彙を選択する文法語彙判別部11を設ければ良い。
When appearance information is also registered in the
以上のように、本実施形態によれば、検索対象のテキストコーパスを選別することにより、言い回し候補の適合性の判断精度を向上させることができ、精度の高い認識文法を作成することが可能となる。さらに、検索結果から算出される各言い回し候補の出現情報を利用することにより、さらに精度の高い認識文法を作成できる。 As described above, according to the present embodiment, by selecting the text corpus to be searched, it is possible to improve the accuracy of determining the suitability of wording candidates and to create a highly accurate recognition grammar. Become. Furthermore, by using the appearance information of each wording candidate calculated from the search result, a recognition grammar with higher accuracy can be created.
なお、上記の実施形態では、語彙候補作成部2が生成した言い回し候補を語彙データベース1のエントリへ一旦登録し、大規模コーパス8での検索結果に応じて、検索結果解析部9により適合性がないと判断された言い回し候補をデータベース更新部6が語彙データベース1のエントリから削除するものとした。しかし、本発明はこれに限定されず、語彙候補作成部2が生成した言い回し候補を、システム内のメモリに一時的に記憶しておき、大規模コーパス8での検索結果に応じて、検索結果解析部9により適合性があると判断された言い回し候補のみを、データベース更新部6が前記メモリから取り出し、語彙データベース1のエントリへ登録するものとしても良い。
In the embodiment described above, the wording candidate generated by the vocabulary
また、本発明にかかる認識文法作成システムは、単一のハードウェアとして構成することも可能であるし、複数のハードウェアの組み合わせとして構成することも可能である。また、後者の場合は、各構成要素間を接続するための通信回線は有線または無線のいずれでも良いし、各構成要素が遠隔地に配置されていることもあり得る。 In addition, the recognition grammar creation system according to the present invention can be configured as a single piece of hardware or a combination of a plurality of pieces of hardware. In the latter case, the communication line for connecting each component may be either wired or wireless, and each component may be located at a remote location.
なお、以下の付記1〜6のそれぞれに記載の認識文法作成システムの他に、付記7および8にそれぞれ記載の認識文法作成方法および認識文法作成プログラムも、本発明の一形態である。
In addition to the recognition grammar creation system described in each of
(付記1) 正式語彙とその言い回しを記憶する語彙データベースと、
言い回し候補の適合性を調べるための検索対象とするコーパスを選択し、選択したコーパスへ当該言い回し候補の検索を依頼する検索コーパス選定部と、
前記検索コーパス選定部によって選択されたコーパスにおける検索結果を解析する検索結果解析部と、
前記検索結果解析部による解析結果と所定の基準に基づいて言い回し候補の適合性を判断し、言い回し候補のうち適合性を有する言い回しを前記語彙データベースへ格納するデータベース更新部と、
前記語彙データベースから語彙を読み出して文法仕様に従った当該語彙の認識文法を作成する文法作成部とを備えた認識文法作成システム。
(Supplementary note 1) A vocabulary database that memorizes formal vocabularies and their phrases,
A search corpus selection unit that selects a corpus to be searched for checking suitability of the wording candidate and requests the selected corpus to search for the wording candidate;
A search result analysis unit for analyzing a search result in the corpus selected by the search corpus selection unit;
A database update unit that determines the suitability of the wording candidate based on the analysis result by the search result analysis unit and a predetermined criterion, and stores the wording having relevance among the wording candidates in the vocabulary database;
A recognition grammar creation system comprising: a grammar creation unit that reads a vocabulary from the vocabulary database and creates a recognition grammar of the vocabulary according to grammar specifications.
(付記2) 前記検索コーパス選定部は、
検索対象の候補とするコーパスである候補コーパスに関する情報を記憶する候補コーパスデータベースと、
候補コーパスの検索キーワードとして、前記正式語彙に関連する少なくとも一つのキーワードを入力し、当該検索キーワードに従ってインターネット上で候補コーパスに関する情報を検索する候補コーパス検索部と、
前記候補コーパス検索部で得られた情報を前記候補コーパスデータベースに登録する候補コーパス登録部とを備え、
前記検索コーパス選定部が、前記候補コーパスデータベースに登録された情報を参照し、検索対象とするコーパスを選定する、付記1に記載の認識文法作成システム。
(Supplementary Note 2) The search corpus selection unit
A candidate corpus database that stores information about candidate corpora that are corpora to be searched;
A candidate corpus search unit that inputs at least one keyword related to the formal vocabulary as a search keyword for the candidate corpus and searches for information on the candidate corpus on the Internet according to the search keyword;
A candidate corpus registration unit that registers information obtained by the candidate corpus search unit in the candidate corpus database;
The recognition grammar creation system according to
(付記3) 前記検索結果解析部が、前記コーパスにおける前記言い回し候補の出現情報を生成する出現情報生成部を備え、当該出現情報生成部による出現情報の生成結果を、前記解析結果として前記データベース更新部へ渡す、付記1または2に記載の認識文法作成システム。
(Additional remark 3) The said search result analysis part is provided with the appearance information generation part which produces | generates the appearance information of the said wording candidate in the said corpus, and the said database update is made into the said analysis result by using the generation result of the appearance information by the said appearance information generation part The recognition grammar creation system according to
(付記4) 前記データベース更新部が、言い回しを前記語彙データベースへ格納する際に、当該言い回しについて前記出現情報生成部により生成された出現情報を、当該言い回しに関連づけて前記語彙データベースに格納し、
前記認識文法作成システムは、さらに、
前記語彙データベースから、前記出現情報に基づいて認識文法を作成すべき語彙を選択して前記文法作成部へ渡す文法語彙判別部を備えた、付記3に記載の認識文法作成システム。
(Supplementary Note 4) When the database update unit stores the wording in the vocabulary database, the appearance information generated by the appearance information generation unit for the wording is stored in the vocabulary database in association with the wording,
The recognition grammar creation system further includes:
The recognition grammar creation system according to
(付記5) 前記文法作成部が、前記出現情報に基づいて、単語の優先度を示す情報を持つ認識文法を作成する、付記3または4に記載の認識文法作成システム。
(Additional remark 5) The recognition grammar preparation system of
(付記6)正式語彙とその言い回しを記憶する語彙データベースと、
正式語彙から言い回し候補を作成する語彙候補作成部と、
言い回し候補の適合性を調べるための検索対象とするコーパスを選択し、選択したコーパスへ当該言い回し候補の検索を依頼する検索コーパス選定部と、
前記検索コーパス選定部によって選択されたコーパスにおける検索結果を解析する検索結果解析部と、
前記検索結果解析部による解析結果に基づいて言い回し候補の適合性を判断し、言い回し候補のうち適合性を有する言い回しを前記語彙データベースへ格納するデータベース更新部と、
前記語彙データベースから語彙を読み出して文法仕様に従った認識文法を作成する文法作成部とを備えた認識文法作成システム。
(Supplementary Note 6) A vocabulary database for storing formal vocabulary words and phrases,
A vocabulary candidate creation unit that creates wording candidates from formal vocabulary;
A search corpus selection unit that selects a corpus to be searched for checking suitability of the wording candidate and requests the selected corpus to search for the wording candidate;
A search result analysis unit for analyzing a search result in the corpus selected by the search corpus selection unit;
A database update unit that determines the suitability of the wording candidate based on the analysis result by the search result analysis unit, and stores the wording having relevance among the wording candidates in the vocabulary database;
A recognition grammar creation system comprising: a grammar creation unit that reads a vocabulary from the vocabulary database and creates a recognition grammar according to grammar specifications.
(付記7)正式語彙から言い回し候補を作成し、
言い回し候補の適合性を調べるための検索対象とするコーパスを選択し、選択したコーパスへ当該言い回し候補の検索を依頼し、
検索対象として選択されたコーパスにおける検索結果を受け取って解析し、
前記解析の結果に基づいて言い回し候補の適合性を判断し、言い回し候補のうち適合性を有する言い回しを語彙データベースへ格納し、
前記語彙データベースから語彙を読み出して文法仕様に従った認識文法を作成する認識文法作成方法。
(Appendix 7) Create wording candidates from formal vocabulary,
Select a corpus to be searched for checking the suitability of the wording candidate, request the selected corpus to search for the wording candidate,
Receive and analyze search results in the corpus selected for search,
Determining the suitability of the wording candidates based on the result of the analysis, and storing the wording having relevance among the wording candidates in the vocabulary database;
A recognition grammar creation method for reading a vocabulary from the vocabulary database and creating a recognition grammar according to a grammar specification.
(付記8)正式語彙から言い回し候補を作成し、
言い回し候補の適合性を調べるための検索対象とするコーパスを選択し、選択したコーパスへ当該言い回し候補の検索を依頼し、
検索対象として選択されたコーパスにおける検索結果を受け取って解析し、
前記解析の結果に基づいて言い回し候補の適合性を判断し、言い回し候補のうち適合性を有する言い回しを語彙データベースへ格納し、
前記語彙データベースから語彙を読み出して文法仕様に従った認識文法を作成する処理をコンピュータに実行させる命令を含むコンピュータプログラム。
(Appendix 8) Create wording candidates from formal vocabulary,
Select a corpus to be searched for checking the suitability of the wording candidate, request the selected corpus to search for the wording candidate,
Receive and analyze search results in the corpus selected for search,
Determining the suitability of the wording candidates based on the result of the analysis, and storing the wording having relevance among the wording candidates in the vocabulary database;
A computer program comprising instructions for causing a computer to execute processing for reading a vocabulary from the vocabulary database and creating a recognition grammar according to a grammar specification.
以上のように本発明によれば、検索対象のテキストコーパスを選別することにより、言い回し候補の適合性の判断精度を向上させることができ、精度の高い認識文法を作成することが可能な認識文法作成システムを提供できる。 As described above, according to the present invention, it is possible to improve the accuracy of determining the suitability of wording candidates by selecting a text corpus to be searched, and to create a highly accurate recognition grammar. A creation system can be provided.
1 語彙データベース
2 語彙候補作成部
3 文法作成部
4 データベース編集部
5 類義語データベース
6 データベース更新部
7 検索コーパス選定部
8 大規模コーパス
8a 検索部
8b テキストコーパス
9 検索結果解析部
10 文法記憶部
11 文法語彙判別部
21 形態素解析部
22 頭文字取得部
23 頭文字合成部
24 省略規則適用部
25 省略作成規則記憶部
26 アルファベット変換部
DESCRIPTION OF
Claims (5)
言い回し候補の適合性を調べるための検索対象とするコーパスを選択し、選択したコーパスへ当該言い回し候補の検索を依頼する検索コーパス選定部と、
前記検索コーパス選定部によって選択されたコーパスにおける検索結果を解析する検索結果解析部と、
前記検索結果解析部による解析結果と所定の基準に基づいて言い回し候補の適合性を判断し、言い回し候補のうち適合性を有する言い回しを前記語彙データベースへ格納するデータベース更新部と、
前記語彙データベースから語彙を読み出して文法仕様に従った当該語彙の認識文法を作成する文法作成部とを備えた認識文法作成システム。 A vocabulary database that memorizes the official vocabulary and its phrases,
A search corpus selection unit that selects a corpus to be searched for checking suitability of the wording candidate and requests the selected corpus to search for the wording candidate;
A search result analysis unit for analyzing a search result in the corpus selected by the search corpus selection unit;
A database update unit that determines the suitability of the wording candidate based on the analysis result by the search result analysis unit and a predetermined criterion, and stores the wording having relevance among the wording candidates in the vocabulary database;
A recognition grammar creation system comprising: a grammar creation unit that reads a vocabulary from the vocabulary database and creates a recognition grammar of the vocabulary according to grammar specifications.
検索対象の候補とするコーパスである候補コーパスに関する情報を記憶する候補コーパスデータベースと、
候補コーパスの検索キーワードとして、前記正式語彙に関連する少なくとも一つのキーワードを入力し、当該検索キーワードに従ってインターネット上で候補コーパスに関する情報を検索する候補コーパス検索部と、
前記候補コーパス検索部で得られた情報を前記候補コーパスデータベースに登録する候補コーパス登録部とを備え、
前記検索コーパス選定部が、前記候補コーパスデータベースに登録された情報を参照し、検索対象とするコーパスを選定する、請求項1に記載の認識文法作成システム。 The search corpus selection unit
A candidate corpus database that stores information about candidate corpora that are corpora to be searched;
A candidate corpus search unit that inputs at least one keyword related to the formal vocabulary as a search keyword for the candidate corpus and searches for information on the candidate corpus on the Internet according to the search keyword;
A candidate corpus registration unit that registers information obtained by the candidate corpus search unit in the candidate corpus database;
The recognition grammar creation system according to claim 1, wherein the search corpus selection unit refers to information registered in the candidate corpus database and selects a corpus to be searched.
前記認識文法作成システムは、さらに、
前記語彙データベースから、前記出現情報に基づいて認識文法を作成すべき語彙を選択して前記文法作成部へ渡す文法語彙判別部を備えた、請求項3に記載の認識文法作成システム。 When the database update unit stores the wording in the vocabulary database, the appearance information generated by the appearance information generation unit for the wording is stored in the vocabulary database in association with the wording,
The recognition grammar creation system further includes:
The recognition grammar creation system according to claim 3, further comprising: a grammar vocabulary determination unit that selects a vocabulary for which a recognition grammar is to be created based on the appearance information from the vocabulary database and passes the selected vocabulary to the grammar creation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003277050A JP4177195B2 (en) | 2003-07-18 | 2003-07-18 | Recognition grammar creation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003277050A JP4177195B2 (en) | 2003-07-18 | 2003-07-18 | Recognition grammar creation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005037838A true JP2005037838A (en) | 2005-02-10 |
JP4177195B2 JP4177195B2 (en) | 2008-11-05 |
Family
ID=34213166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003277050A Expired - Fee Related JP4177195B2 (en) | 2003-07-18 | 2003-07-18 | Recognition grammar creation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4177195B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011064969A (en) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | Device and method of speech recognition |
-
2003
- 2003-07-18 JP JP2003277050A patent/JP4177195B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011064969A (en) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | Device and method of speech recognition |
Also Published As
Publication number | Publication date |
---|---|
JP4177195B2 (en) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US6910004B2 (en) | Method and computer system for part-of-speech tagging of incomplete sentences | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
JP3429184B2 (en) | Text structure analyzer, abstracter, and program recording medium | |
US6442522B1 (en) | Bi-directional natural language system for interfacing with multiple back-end applications | |
US8364487B2 (en) | Speech recognition system with display information | |
US7742922B2 (en) | Speech interface for search engines | |
EP1016074B1 (en) | Text normalization using a context-free grammar | |
US6963831B1 (en) | Including statistical NLU models within a statistical parser | |
Ek et al. | Named entity recognition for short text messages | |
US20060047500A1 (en) | Named entity recognition using compiler methods | |
JP2000353161A (en) | Method and device for controlling style in generation of natural language | |
JP2004005600A (en) | Method and system for indexing and retrieving document stored in database | |
JP2003505778A (en) | Phrase-based dialogue modeling with specific use in creating recognition grammars for voice control user interfaces | |
US20070179779A1 (en) | Language information translating device and method | |
CA2523992C (en) | Automatic segmentation of texts comprising chunks without separators | |
US20040186706A1 (en) | Translation system, dictionary updating server, translation method, and program and recording medium for use therein | |
US20060047690A1 (en) | Integration of Flex and Yacc into a linguistic services platform for named entity recognition | |
Kondo et al. | Surfin'the World Wide Web with Japanese | |
KR100617319B1 (en) | Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof | |
JP3575242B2 (en) | Keyword extraction device | |
JP4177195B2 (en) | Recognition grammar creation system | |
US7593846B2 (en) | Method and apparatus for building semantic structures using self-describing fragments | |
JP5688754B2 (en) | Information retrieval apparatus and computer program | |
JP2010266971A (en) | Terminal equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080814 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080821 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |