JP2013250379A - Voice recognition device, voice recognition method and program - Google Patents
Voice recognition device, voice recognition method and program Download PDFInfo
- Publication number
- JP2013250379A JP2013250379A JP2012124247A JP2012124247A JP2013250379A JP 2013250379 A JP2013250379 A JP 2013250379A JP 2012124247 A JP2012124247 A JP 2012124247A JP 2012124247 A JP2012124247 A JP 2012124247A JP 2013250379 A JP2013250379 A JP 2013250379A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- words
- text
- user dictionary
- text portion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Landscapes
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、入力音声に対する認識精度を改善させる音声認識装置、音声認識方法およびプログラムに関する。 The present invention relates to a voice recognition device, a voice recognition method, and a program for improving recognition accuracy for input voice.
キーボードなどによる手入力が困難な環境におけるコンピュータの利用状況、例えば、走行中の車両におけるナビゲーション装置の操作制御、携帯型情報端末での文字入力などにおいて、音声認識による情報入力の活用が増えてきている。音声認識技術では、入力された音声を、その音響的な特徴に対する、音響モデルと呼ばれる音声コーパスを利用したデータとの比較による解析と、その言語的な特徴に対する、言語モデルと呼ばれる音素の並びに対する言語的制約に基づく解析とを通して、テキストデータに変換する、ということが基礎技術として確立されている。 Utilization of information input by voice recognition is increasing in the use situation of computers in environments where manual input using a keyboard or the like is difficult, for example, operation control of a navigation device in a running vehicle, character input on a portable information terminal, etc. Yes. In speech recognition technology, the input speech is analyzed for its acoustic features by comparison with data using a speech corpus called an acoustic model, and the phoneme sequence called a language model for its linguistic features. Conversion to text data through analysis based on linguistic constraints has been established as a basic technology.
情報機器に入力される音声は、その発話者の声質、入力機器の性能、周囲環境などによって影響を受けるので、音声認識技術における最大の関心はその認識精度を如何に向上させるかといったことにある。一般的に、音響モデルおよび言語モデルにおけるサンプルデータ、すなわち音声コーパスや登録単語を増加させることによって、その認識精度を高めることができるが、一方でデータの増加に伴う処理速度の低下の問題が懸念される。 Since the voice input to the information equipment is affected by the voice quality of the speaker, the performance of the input equipment, the surrounding environment, etc., the greatest interest in voice recognition technology is how to improve the recognition accuracy. . In general, by increasing the sample data in the acoustic model and language model, that is, the speech corpus and registered words, the recognition accuracy can be improved, but there is a concern that the processing speed decreases due to the increase in data. Is done.
このような問題を解決しうる技術として特許文献1が存在する。特許文献1に開示の技術は、第1音声認識部で認識された音声に対し、更にその特定の区間を抽出して、その区間に対してより制約的な言語モデルに基づく解析を行なうことによって、認識精度を向上させるといったものである。そして、この特定の区間を抽出する方法として、周知の「固有名詞抽出技術」を用いることにより、固有名詞をその特定の区間として抽出し、これを専用の固有名詞辞書と対比することで精度向上を図ることが開示されている。 Patent Document 1 exists as a technique that can solve such a problem. The technique disclosed in Patent Document 1 extracts a specific section from the speech recognized by the first speech recognition unit, and performs analysis based on a more restrictive language model for the section. And improving the recognition accuracy. And, as a method of extracting this specific section, by using the well-known “proprietary noun extraction technique”, the proper noun is extracted as the specific section, and this is compared with a dedicated proper noun dictionary to improve accuracy. Is disclosed.
また、車載ナビゲーション用の音声認識装置における認識精度を向上させる技術として、特許文献2が存在する。特許文献2に開示の技術は、音声辞書を地域毎にグループ分けし、車両の現在位置に基づいて音声認識の際に利用する辞書を使い分けることで、その認識精度を向上させるといったものである。 Further, Patent Literature 2 exists as a technique for improving recognition accuracy in a voice recognition device for in-vehicle navigation. The technique disclosed in Patent Document 2 is to improve the recognition accuracy by grouping voice dictionaries for each region and using different dictionaries to be used for voice recognition based on the current position of the vehicle.
特許文献1に開示の技術によって、音声中に含まれる特定表現に対する認識精度を一定程度改善することが期待されるものの、次のような理由によりその程度は限定的になるものと考えられる。すなわち、特許文献1の技術は、抽出される特定区間の表現に対して言語モデルを変えて再認識を実施するものであり、従って、もともと音響モデルにおける認識に誤りが含まれていた場合には、たとえその区間に対して再認識を行なったとしても、その認識精度を向上させることは期待できない。 Although the technique disclosed in Patent Document 1 is expected to improve the recognition accuracy for the specific expression included in the speech to a certain degree, it is considered that the degree is limited for the following reason. That is, the technique of Patent Document 1 performs re-recognition by changing the language model with respect to the expression of the extracted specific section. Therefore, when the recognition in the acoustic model originally includes an error. Even if the section is re-recognized, it cannot be expected to improve the recognition accuracy.
この問題は特許文献2に開示の技術においても同様であり、音響モデルにおける認識に誤りが含まれていた場合には、精度向上は期待できない。 This problem also applies to the technique disclosed in Patent Document 2. If an error is included in the recognition in the acoustic model, improvement in accuracy cannot be expected.
本発明は、これらの問題を解決するためになされたものであり、音声中に含まれる固有名詞に対して、その音響的特徴の抽出での誤りを補正してユーザ辞書との対比を行うことによって、その認識精度を改善させることができるものである。 The present invention has been made to solve these problems, and corrects errors in the extraction of acoustic features of proper nouns contained in speech and compares them with a user dictionary. The recognition accuracy can be improved.
本発明は、情報端末における音声認識装置であって、固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成する手段と、入力された音声を、その音声波形に基づいて音声認識しテキスト化する手段と、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出する手段と、前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成する手段と、前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換える手段と、を有する。 The present invention is a speech recognition apparatus in an information terminal, which collects a unique name based on a user's usage status for the terminal, creates a user dictionary, and inputs speech based on the speech waveform. A means for recognizing and converting to text, a means for extracting a text part related to a proper noun from the textized voice, and replacing one or more words by replacing specific characters in the extracted text part. Means for generating, and when the user dictionary includes the one or more words, means for replacing a text part related to the proper noun with the word.
好ましくは、前記音声をテキスト化する手段が、音響モデルに基づく確率により音声波形に含まれる各音素を決定する手段を含み、前記抽出されたテキスト部位から1または複数の単語を生成する手段が、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える。 Preferably, the means for converting the speech into text includes means for determining each phoneme included in the speech waveform based on a probability based on an acoustic model, and the means for generating one or more words from the extracted text portion, A specific character in the extracted text portion is replaced with reference to probability data based on the acoustic model for the speech waveform.
好ましくは、前記抽出されたテキスト部位から1または複数の単語を生成する手段が、前記音声をテキスト化するときに、各音素の次候補とされた音素を、前記抽出されたテキスト部位における対応音素と置き換える。 Preferably, when the means for generating one or a plurality of words from the extracted text part converts the speech into a text, the phoneme that is the next candidate for each phoneme is used as the corresponding phoneme in the extracted text part. Replace with
好ましくは、前記音声認識装置が、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置であり、前記ユーザ辞書を作成する手段が、前記ナビゲーションに係る固有名称をそのユーザの移動履歴に基づいて収集して、ユーザ辞書を作成するものである。 Preferably, the voice recognition device is a voice recognition device in an information terminal having a navigation function for a moving body, and the means for creating the user dictionary uses a unique name related to the navigation based on the movement history of the user. Collect and create a user dictionary.
好ましくは、前記ユーザ辞書を作成する手段が、移動体の現在位置、目的地または現在地から目的値までの経路に基づいて、地図データから取得される地名、施設名を含む固有名称を収集して構成されるものである。 Preferably, the means for creating the user dictionary collects a unique name including a place name and a facility name acquired from the map data based on a current position of the mobile object, a destination or a route from the current place to the destination value. It is composed.
好ましくは、前記ユーザ辞書が、各固有名称に対して、その読み、位置座標、登録日時の各情報を備えるとともに、それらの情報に基づいてその優先順位が与えられたものであり、前記固有名詞に係るテキスト部位を置き換える手段は、その置き換えに係る単語が複数ある場合に、前記ユーザ辞書における優先順位に従って、置き換えに係る単語を決定する。 Preferably, the user dictionary includes, for each unique name, information on its reading, position coordinates, and registration date and time, and a priority is given based on the information, and the proper noun When there are a plurality of words related to the replacement, the means for replacing the text portion according to determines a word related to the replacement according to the priority order in the user dictionary.
本発明は、情報端末における音声認識方法であって、固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、を有する。 The present invention relates to a speech recognition method in an information terminal, wherein a unique name is collected based on a user's usage history for the terminal, a user dictionary is created, and an input speech is based on the speech waveform. Recognizing and converting to text, extracting a text part related to a proper noun from the textized voice, and replacing one or more words by replacing specific characters in the extracted text part And a step of replacing the text portion related to the proper noun with the word when the user dictionary includes the one or more words.
好ましくは、前記音声をテキスト化するステップが、音響モデルに基づく確率により音声波形に含まれる各音素を決定するステップを含み、前記抽出されたテキスト部位から1または複数の単語を生成するステップが、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える。 Preferably, the step of converting the speech into text includes determining each phoneme included in the speech waveform according to a probability based on an acoustic model, and generating one or more words from the extracted text portion, A specific character in the extracted text portion is replaced with reference to probability data based on the acoustic model for the speech waveform.
本発明は、情報端末における音声認識プログラムであって、固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、を有する。 The present invention is a speech recognition program in an information terminal, which collects unique names based on a user's usage history for the terminal, creates a user dictionary, and inputs speech based on the speech waveform. Recognizing and converting to text, extracting a text part related to a proper noun from the textized voice, and replacing one or more words by replacing specific characters in the extracted text part And a step of replacing the text portion related to the proper noun with the word when the user dictionary includes the one or more words.
本発明によれば、抽出された固有名詞に係るテキスト部位に対し、その文字の組み換えを行った上でユーザ辞書との対比がなされる。これによって当該テキスト部位に対する、音響モデルによる認識での誤りがあった場合でも、その補正がなされる可能性が高まり、結果として認識精度が向上することが期待できるものである。特に、音声をテキスト化するときに、各音素の次候補とされた音素を置き換えの対象とすることで、その置換回数を最小に抑えることができ、認識速度上の影響を最小にできる。 According to the present invention, the text portion related to the extracted proper noun is compared with the user dictionary after the characters are recombined. As a result, even if there is an error in recognition by the acoustic model for the text part, the possibility of correction is increased, and as a result, it can be expected that the recognition accuracy is improved. In particular, when converting speech into text, by making the phoneme that is the next candidate for each phoneme the target of replacement, the number of replacements can be minimized, and the influence on the recognition speed can be minimized.
次に、本発明の実施の形態について図面を参照して詳細に説明する。以下では、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置を例に取って、本発明の詳細を説明する。実施例に係る音声認識装置においては、移動体の現在位置や走行履歴の情報を活用して、音声認識の精度を向上させるものである。この種の情報端末の形態としては、車両のコンソールに設置された車載ナビゲーション装置、または車載ナビゲーション装置に接続してそこから移動体の情報を取得可能な携帯型情報端末、または自身がナビゲーション機能を備えた携帯型情報端末などが考えられる。 Next, embodiments of the present invention will be described in detail with reference to the drawings. Hereinafter, the details of the present invention will be described by taking a voice recognition device in an information terminal having a navigation function for a moving body as an example. In the speech recognition apparatus according to the embodiment, the accuracy of speech recognition is improved by utilizing information on the current position of the moving body and the travel history. As a form of this type of information terminal, an in-vehicle navigation device installed in a console of a vehicle, a portable information terminal that can be connected to an in-vehicle navigation device and can acquire information on a moving body, or has a navigation function by itself. A portable information terminal provided may be considered.
図1は、本発明の実施例に係る情報端末における、音声認識装置の構成例を示すブロック図である。同図に示すように、音声認識装置100は、音声入力部102、音声認識部104、認識テキスト補正部106、生成テキスト出力部108、記憶部110および制御部112を有する。これらの各機能は、CPU、メモリ、通信機能などを備えた汎用コンピュータ上で、本音声認識に係るプログラムを実行することによって実現することができる。
FIG. 1 is a block diagram illustrating a configuration example of a voice recognition device in an information terminal according to an embodiment of the present invention. As shown in the figure, the speech recognition apparatus 100 includes a
音声入力部102は、利用者の音声をマイクなどから入力して音声波形に変換する。音声認識部104は、入力音声波形を解析してその音声に対応するテキストを出力するもので、音響モデル114に基づく解析を実施する音響解析部116と、言語モデル118に基づく解析を実施する言語解析部120との二段階に渡る解析で音声を認識する。音響解析部116では、入力音声波形を音素、音節、トライフォン(三つ組音素)などの小単位に分離し、音響モデル114に蓄積した大量の音声波形データ(音声コーパス)と対比する。そして、その中から最も近似度の高い音声を認識結果として出力する。例えば、音響解析部116では、「小菅(こすげ)」という入力に対して、図2に模式的に示されるような中間出力が得られる。図における縦方向の並びは、各音素に対する対応候補の確からしさの程度を表している。例えば、入力音声の最初の音素に対し、音響モデルとの対比により、「こ」、「ほ」、「か」がその候補として選出され、それらの確からしさの度合いはそれぞれ90%、80%、60%といった具合になる。音響解析部116における解析データは記憶部110に記録され、認識テキスト補正部106においても利用される。
The
言語解析部120では、言語モデル118に蓄積した大量の単語データと、単語の並びの制約や品詞を定義した句・文データから、音響解析部116で得られたテキストの並びを、言語的に解析する。単語の並びの制約の表現には、N個の単語の並びにおける出現頻度をテーブル化したn.gram文法などを用いて、並びの確からしさを確率的に表現する。音声認識部104では、音響解析部116における小単位の音声解析結果に対し、言語解析部120における言語的解析によって、入力音声に対する意味的補正がなされ、それが音声認識出力として得られる。
The
認識テキスト補正部106は、音声認識部104の出力を取得して、更にその補正を行うもので、固有名詞抽出部122、置き換え単語生成部124、置き換え判定部126、ユーザ辞書生成部128、ユーザ辞書130およびユーザ辞書管理部132を備える。固有名詞抽出部122は、音声認識部104からの音声に係る出力において、その固有名詞に係るテキスト部位を抽出する。固有名詞の抽出においては、前記言語解析部120による品詞解析の結果を利用する。置き換え単語生成部124は、固有名詞抽出部122で抽出された固有名詞に対し、その単語を構成する文字の置き換えを行なって1または複数の単語を生成する。この際、置き換え単語生成部124では、前記音響解析部116で得られた音素候補の確率値を利用して、その組合せ数を限定する。例えば、対象音素に対する確率値が80%以上のもの、対象音素の次候補のみ、などの境界値を設定して対象候補を限定する。図2で示した、入力音声「小菅(こすげ)」に対して次候補の音素のみ、すなわち「ほ」「う」「げ」を対象にした場合、図3に示すように、置き換え単語生成部124で生成される単語の組み合わせ数は8組となる。
The recognized text correction unit 106 acquires the output of the
置き換え判定部126は、置き換え単語生成部124で生成された各単語につき、それがユーザ辞書130に含まれているか検索し、該当単語が辞書内に存在する場合に、これを置換文字列として決定する。例えば、ユーザ辞書130内には、「小菅(こすげ)」の単語が登録されていて、一方で音声認識部104で認識された「小杉(こすぎ)」の単語が含まれていない場合においては、「小杉(こすぎ)」に変えて「小菅(こすげ)」を認識文字として採択する。後述するようにユーザ辞書130における各単語は、所定基準に基づく優先順位を持っており、組合せ単語のうちで複数の単語が辞書内に発見された場合には、その優先順位に従って置き換え単語を決定する。
The
ユーザ辞書130は、ユーザのナビゲーション装置における利用状況に基づいて取得される固有名称を蓄積したデータベースであり、ユーザ辞書生成部128は、ナビゲーション装置134に接続して、そこからユーザの利用状況を取得し固有名称を抽出する。ここでナビゲーション装置におけるユーザの利用状況を把握するものとして、車両の現在および過去の走行情報が利用される。具体的には、現在位置算出部134aで算出される車両の現在位置の周辺おける地域や施設の情報、誘導経路案内部134bで構築した誘導経路および目的地の周辺おける地域や施設の情報、並びに施設検索部134cで検索された施設の情報を、地図データ134dから取得する。好適な実施例において取得される情報には、その地域または施設の「読み」、「綴り」、「位置座標」、「登録日時」の各情報が含まれる。図4に、ユーザ辞書130に登録される固有名称のデータ構造の一例を示した。
The
登録される固有名称には、所定基準に基づく優先順位が付けられる。例えば、その元データにおける出現頻度、登録日時、現在の車両位置からの距離の何れかまたはそれらの複合的基準に従って、優先順位を決定し、登録時またはその読み出し時にデータの並び替えを行なう。ユーザ辞書管理部132は、このようなデータの並び替えに係るデータ管理を行うと共に、古い情報をユーザ辞書130から削除する処理を定期的に実行する。
The registered unique names are given priorities based on predetermined criteria. For example, the priority order is determined according to any of the appearance frequency, registration date and time, the distance from the current vehicle position in the original data, or a composite standard thereof, and the data is rearranged at the time of registration or reading. The user
生成テキスト出力部108は、音声認識部104で認識されたテキストに対し、置き換え判定部126で採択された単語の置き換えを行なって、これを音声認識結果として次処理に渡す。例えば、ソーシャルテキスト投稿サービスの利用に際して、本音声認識が利用される場合には、この音声認識結果は、そのようなサービスのアプリケーション・インタフェースプログラムに渡され、情報端末が備える通信機能などを介して投稿可能になる。また、ナビゲーション装置に対する施設検索などの操作に利用される場合には、音声認識結果は、ナビゲーション装置側に入力されその施設案内プログラムの実行を可能にする。
The generated
記憶部110は、本音声認識装置100における各処理の段階で生成される一時データを記憶する。そのようなデータには、音声入力部102からの音声波形、音響解析部116からの抽出音素およびその確率値、言語解析部120からの句・文データおよびその品詞などの属性情報、固有名詞抽出部122で抽出された固有名詞、置き換え単語生成部124で生成された単語群、置き換え判定部126で採択された置き換え単語、生成テキスト出力部108で出力される生成テキストが含まれる。制御部112は、音声認識装置100の各機能を制御する。
The
次に、図5のフローチャートに従って、本音声認識装置における音声認識処理の過程を説明する。図において本音声認識処理は、利用者がマイクなどの音声入力機器に対して発話することによって開始される(ステップS502)。利用者のボタン操作などによる明示的な指示、または一定時間の無音を検出することなどにより、音声入力の終了を検出し(ステップS504)、音声入力部102において入力音声を音声波形データに変換する(ステップS506)。取得された音声波形は、音声認識部104へ入力され、最初に音響モデルに基づく音響解析に掛けられる(ステップS508)。音響解析部116では、音声波形は音素などの小単位に分離され、個々が音声コーパスと対比されて、その確率値に応じて解析テキストが決定される。この解析データは後の利用のために記憶部に保存される。次に、この解析テキストは言語モデルに基づく言語解析に掛けられる(ステップS510)。言語解析部120では、言語モデルにおける単語データと句・文データから、解析テキストの並びを言語的に解析し、並びの確からしさを確率値として表現する。そして確率値の高い並びをその音声テキストとして決定する。
Next, the process of speech recognition processing in the speech recognition apparatus will be described with reference to the flowchart of FIG. In the figure, the voice recognition process is started when a user speaks to a voice input device such as a microphone (step S502). The end of voice input is detected by detecting an explicit instruction by a user's button operation or the like, or detecting silence for a certain time (step S504), and the
次に、言語解析部120からの出力テキストは、固有名詞抽出部122に渡され、そのテキストにおける固有名詞に係る単語が抽出される(ステップS512)。固有名詞の抽出には、言語解析部120における品詞解析の結果を利用する。テキスト中に固有名詞が存在しない場合、処理はステップS514からステップS524に移り、言語解析部120からの出力テキストを最終的な生成テキストとし、次処理に出力する。
Next, the output text from the
ステップS514においてテキスト中に固有名詞に係る単語が含まれていると判断される場合は、次に、その単語に対する1または複数の置き換え単語を生成する(ステップS516)。前述のとおり、単語中の各文字の置き換え基準は、音響解析部116で得られた各音素に対する確率値を参照することによる。そして、ここで生成された各単語に対して、ユーザ辞書130に対する検索を実施し(ステップS518)、辞書中に該当単語が存在する場合には、これを元のテキストから抽出した固有名詞と置き換え、認識テキストを完成させ、これを最終的な認識テキストとして次処理に出力する(ステップS520〜524)。生成した複数の単語がユーザ辞書130に見つかった場合は、前述したその固有名詞の優先順位基準に従い、優先順位が高い単語を置き換え単語として採択する。一方で、生成した複数の単語の何れもがユーザ辞書130に存在しない場合、または置換前の固有名詞だけがユーザ辞書130に存在する場合には、ステップS520からステップS524に処理を移し、言語解析部120からの出力テキストを最終的な認識テキストとして出力する。以上のようにして、利用者からの入力音声は、音響モデルによる解析、言語モデルによる解析、およびユーザ辞書を利用した固有名詞の置き換え、の各処理を経て音声認識されテキスト文字として出力されるのである。
If it is determined in step S514 that the word related to the proper noun is included in the text, next, one or more replacement words for the word are generated (step S516). As described above, the replacement criterion for each character in the word is based on referring to the probability value for each phoneme obtained by the
図6は、本音声認識装置における各解析における出力テキストの変化を模式的に表している。ここでは、利用者がソーシャルテキスト投稿サービスに対して音声による投稿を行う状況で、「小菅ジャンクション到着」と発話した場合を例とする。この入力に係る音声波形は個々の音素に分離され、音響解析によって各文字単位で音声コーパスとの対比による認識が行われる。この例では、「こすげ」の発話における「げ」の音素がより確率値の高い「ぎ」と認識されたと仮定する。他の文字は発話通りに解析されたものとする。 FIG. 6 schematically shows changes in the output text in each analysis in the speech recognition apparatus. Here, as an example, the user utters “Kobuchi Junction Arrival” in a situation where the user posts by voice to the social text posting service. The speech waveform according to this input is separated into individual phonemes, and recognition is performed by comparing with the speech corpus for each character by acoustic analysis. In this example, it is assumed that the phoneme of “ge” in the utterance of “kosuge” is recognized as “gi” having a higher probability value. Other characters shall be analyzed as uttered.
音響解析により認識された音声波形の各音素「こ」、「す」、「ぎ」、「じゃ」、「ん」...「く」は、言語解析により「小杉(こすぎ)」、「ジャンクション」および「到着(とうちゃく)」と解析されている。このテキストに対して固有名詞である「小杉(こすぎ)」の文字列が抽出され、その文字の組み合わせとして「こすぎ」、「こすげ」、「ほすぎ」...などが生成される。ユーザ辞書にはこれらの候補に対して「小菅(こすげ)」という固有名詞のみがヒットし、置き換え単語として選ばれる。これによって、「小杉(こすぎ)ジャンクション到着」という認識テキストは、「小菅(こすげ)ジャンクション到着」というテキストに変換され、音声認識における最終結果として出力される。 Each phoneme “ko”, “su”, “gi”, “ja”, “n” ... “ku” of the speech waveform recognized by the acoustic analysis is converted to “kosugi”, “junction” by language analysis. And “arrival”. A character string of “kosugi”, which is a proper noun, is extracted from this text, and “kosugi”, “kosuge”, “hoso”, etc. are generated as combinations of the characters. In the user dictionary, only the proper noun “Kosuge” is hit against these candidates and selected as a replacement word. As a result, the recognition text “arrival of Kosugi junction” is converted into the text “arrival of Kosuge junction” and output as the final result in speech recognition.
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形・変更が可能である。前記実施例では、ユーザ辞書で管理する固有名称を、ナビゲーションに係るデータから収集したが、情報端末またはナビゲーション装置において蓄積されている他のデータ、例えば端末に格納した人名、住所などの個人の情報を含むアドレスデータ、視聴のために格納した映像および楽曲の情報その他の、ユーザに係る情報からも収集して良い。 The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the specific embodiments, and various modifications and changes can be made within the scope of the gist of the invention described in the claims. It can be changed. In the above embodiment, the unique names managed by the user dictionary are collected from the data related to navigation, but other information stored in the information terminal or the navigation device, for example, personal information such as a person's name and address stored in the terminal May also be collected from address data including, information stored for viewing and video and music information, and other information relating to the user.
100:音声認識装置 102:音声入力部
104:音声認識部 106:認識テキスト補正部
108:生成テキスト出力部 110:記憶部
112:制御部 114:音響モデル
116:音響解析部 118:言語モデル
120:言語解析部 122:固有名詞抽出部
124:置き換え単語生成部 126:置き換え判定部
128:ユーザ辞書生成部 130:ユーザ辞書
132:ユーザ辞書管理部
DESCRIPTION OF SYMBOLS 100: Speech recognition apparatus 102: Speech input part 104: Speech recognition part 106: Recognition text correction part 108: Generated text output part 110: Storage part 112: Control part 114: Acoustic model 116: Acoustic analysis part 118: Language model 120: Language analysis unit 122: proper noun extraction unit 124: replacement word generation unit 126: replacement determination unit 128: user dictionary generation unit 130: user dictionary 132: user dictionary management unit
Claims (9)
固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成
する手段と、
入力された音声を、その音声波形に基づいて音声認識しテキスト化する手段と、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出する手段と、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複
数の単語を生成する手段と、
前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係る
テキスト部位を当該単語で置き換える手段と、
を有する音声認識装置。 A speech recognition device in an information terminal,
Means for collecting a unique name based on a user's usage status for the terminal and creating a user dictionary;
Means for recognizing and text-inputting the input speech based on the speech waveform;
Means for extracting a text portion related to a proper noun from the text-formed speech;
Means for generating one or more words by replacing specific characters in the extracted text portion;
Means for replacing the text part of the proper noun with the word when the user dictionary includes the one or more words;
A speech recognition apparatus.
声波形に含まれる各音素を決定する手段を含み、
前記抽出されたテキスト部位から1または複数の単語を生成する手段が、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える、
請求項1に記載の音声認識装置。 The means for converting the speech into text includes means for determining each phoneme included in the speech waveform with a probability based on an acoustic model;
Means for generating one or more words from the extracted text portion replaces specific characters in the extracted text portion with reference to probability data based on the acoustic model for the speech waveform;
The speech recognition apparatus according to claim 1.
請求項2に記載の音声認識装置。 The means for generating one or a plurality of words from the extracted text portion replaces the phoneme that is the next candidate for each phoneme with the corresponding phoneme in the extracted text portion when the speech is converted into text.
The speech recognition apparatus according to claim 2.
前記ユーザ辞書を作成する手段が、前記ナビゲーションに係る固有名称をそのユーザの移動履歴に基づいて収集して、ユーザ辞書を作成するものである、
請求項1〜3の何れかに記載の音声認識装置。 The voice recognition device is a voice recognition device in an information terminal having a navigation function for a moving body,
The means for creating the user dictionary collects unique names related to the navigation based on the movement history of the user, and creates a user dictionary.
The speech recognition apparatus according to claim 1.
請求項4に記載の音声認識装置。 The means for creating the user dictionary is configured by collecting a unique name including a place name and a facility name acquired from map data based on the current position of the moving body, the destination or the route from the current place to the destination value. Is,
The speech recognition apparatus according to claim 4.
前記固有名詞に係るテキスト部位を置き換える手段は、その置き換えに係る単語が複数ある場合に、前記ユーザ辞書における優先順位に従って、置き換えに係る単語を決定する、
請求項5に記載の音声認識装置。 The user dictionary, for each unique name, is provided with each information of its reading, position coordinates, registration date and time, the priority is given based on the information,
The means for replacing the text portion related to the proper noun determines the word related to replacement according to the priority order in the user dictionary when there are a plurality of words related to the replacement.
The speech recognition apparatus according to claim 5.
固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、
入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、
前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、
を有する音声認識方法。 A speech recognition method in an information terminal,
Collecting a unique name based on a user's usage history for the terminal and creating a user dictionary;
Recognizing the input speech based on the speech waveform and converting it into text;
Extracting a text portion related to the proper noun from the textified speech;
Generating one or more words by replacing particular characters in the extracted text portion;
If the user dictionary contains the one or more words, replacing the text portion of the proper noun with the words;
A speech recognition method comprising:
前記抽出されたテキスト部位から1または複数の単語を生成するステップが、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える、
請求項7に記載の音声認識方法。 Converting the speech into text comprises determining each phoneme included in the speech waveform with a probability based on an acoustic model;
Generating one or more words from the extracted text portion refers to probability data based on the acoustic model for the speech waveform and replaces specific characters in the extracted text portion;
The speech recognition method according to claim 7.
固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、
入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、
前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、
を有する音声認識プログラム。 A speech recognition program for an information terminal,
Collecting a unique name based on a user's usage history for the terminal and creating a user dictionary;
Recognizing the input speech based on the speech waveform and converting it into text;
Extracting a text portion related to the proper noun from the textified speech;
Generating one or more words by replacing particular characters in the extracted text portion;
If the user dictionary contains the one or more words, replacing the text portion of the proper noun with the words;
A speech recognition program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012124247A JP2013250379A (en) | 2012-05-31 | 2012-05-31 | Voice recognition device, voice recognition method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012124247A JP2013250379A (en) | 2012-05-31 | 2012-05-31 | Voice recognition device, voice recognition method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013250379A true JP2013250379A (en) | 2013-12-12 |
Family
ID=49849138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012124247A Pending JP2013250379A (en) | 2012-05-31 | 2012-05-31 | Voice recognition device, voice recognition method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013250379A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606947B2 (en) | 2015-11-30 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN112236816A (en) * | 2018-09-20 | 2021-01-15 | 海信视像科技股份有限公司 | Information processing device, information processing system, and imaging device |
-
2012
- 2012-05-31 JP JP2012124247A patent/JP2013250379A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606947B2 (en) | 2015-11-30 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN112236816A (en) * | 2018-09-20 | 2021-01-15 | 海信视像科技股份有限公司 | Information processing device, information processing system, and imaging device |
CN112236816B (en) * | 2018-09-20 | 2023-04-28 | 海信视像科技股份有限公司 | Information processing apparatus, information processing system, and image apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663424B (en) | Intention understanding device and method | |
JP6188831B2 (en) | Voice search apparatus and voice search method | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5310563B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
US20150255064A1 (en) | Intention estimating device and intention estimating method | |
JPWO2016067418A1 (en) | Dialog control apparatus and dialog control method | |
JPH08278794A (en) | Speech recognition device and its method and phonetic translation device | |
JP2013218095A (en) | Speech recognition server integration device and speech recognition server integration method | |
CN108074562B (en) | Speech recognition apparatus, speech recognition method, and storage medium | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
JP6033136B2 (en) | Information processing apparatus and navigation apparatus | |
JP5073024B2 (en) | Spoken dialogue device | |
Hu et al. | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
JP2013250379A (en) | Voice recognition device, voice recognition method and program | |
JP5243325B2 (en) | Terminal, method and program using kana-kanji conversion system for speech recognition | |
JP5378907B2 (en) | Spoken dialogue apparatus and spoken dialogue program | |
JP2004133003A (en) | Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus | |
JP4595415B2 (en) | Voice search system, method and program | |
JP6001944B2 (en) | Voice command control device, voice command control method, and voice command control program | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
JP4987530B2 (en) | Speech recognition dictionary creation device and speech recognition device | |
JP2013235117A (en) | Word separating device, and word separating method | |
KR101068120B1 (en) | Multi-search based speech recognition apparatus and its method | |
JP2005250071A (en) | Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein |