JP5701327B2 - Speech recognition apparatus, speech recognition method, and program - Google Patents
Speech recognition apparatus, speech recognition method, and program Download PDFInfo
- Publication number
- JP5701327B2 JP5701327B2 JP2013053290A JP2013053290A JP5701327B2 JP 5701327 B2 JP5701327 B2 JP 5701327B2 JP 2013053290 A JP2013053290 A JP 2013053290A JP 2013053290 A JP2013053290 A JP 2013053290A JP 5701327 B2 JP5701327 B2 JP 5701327B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- candidates
- recognition result
- term
- element candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000012545 processing Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 description 45
- 230000008569 process Effects 0.000 description 22
- 241000237502 Ostreidae Species 0.000 description 15
- 235000020636 oyster Nutrition 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
本発明は、音声を認識する音声認識装置等に関する。 The present invention relates to a speech recognition device that recognizes speech.
従来の音声認識装置では、誤認識によって不適切な認識結果が出力された場合には、ユーザが、音声入力のやり直しや、誤認識箇所の修正を行っていた(例えば、特許文献1参照)。 In the conventional speech recognition apparatus, when an inappropriate recognition result is output due to misrecognition, the user re-executes speech input or corrects a misrecognized portion (for example, see Patent Document 1).
しかしながら、音声入力のやり直しや、誤認識箇所の修正を行うのは、音声認識後のユーザの負担が増加するという問題があった。 However, redoing voice input or correcting a misrecognized location has a problem of increasing the burden on the user after voice recognition.
上記課題に対し、本発明の目的は、音声認識後のユーザの負担を減らすことである。 In view of the above problems, an object of the present invention is to reduce the burden on the user after speech recognition.
本第一の発明の音声認識装置は、ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段と、音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段と、音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段と、要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段と、要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段とを具備する音声認識装置である。 The voice recognition device according to the first aspect of the invention performs voice recognition processing on voice data receiving means that receives voice data that is voice data spoken by a user, and voice data received by the voice data receiving means, Speech recognition result information acquisition means for acquiring speech recognition result information including two or more arrangements of element candidates that are candidate elements that are part of the speech recognition result corresponding to the speech data, and two or more included in the speech recognition result information The element candidate display means for displaying the element candidates, the element candidate selection accepting means for accepting selection of the arrangement of the element candidates for the display of the element candidates by the element candidate displaying means, and the element candidate selection accepting means accepting the selection The speech recognition apparatus includes output means for outputting output information that is an array of element candidates.
また、本第二の発明の音声認識装置は、第一の発明に対して、要素候補表示手段は、表示する領域のサイズ、または音声認識結果情報の情報量に応じて、音声認識結果情報の全ての要素候補、または一部の要素候補を表示する、音声認識装置である。 In addition, the speech recognition apparatus according to the second aspect of the present invention is different from the first aspect in that the element candidate display means stores the speech recognition result information according to the size of the area to be displayed or the information amount of the speech recognition result information. This is a speech recognition apparatus that displays all element candidates or some element candidates.
また、本第三の発明の音声認識装置は、第一または二の発明に対して、音声認識結果情報取得手段は、要素候補の並びに関する尤度である尤度情報を含む音声認識結果情報を取得し、要素候補表示手段は、尤度情報に応じて要素候補を表示する、音声認識装置である。 In the speech recognition device according to the third aspect of the present invention, in contrast to the first or second aspect of the invention, the speech recognition result information acquisition unit obtains speech recognition result information including likelihood information that is likelihood related to the arrangement of element candidates. The acquired element candidate display means is a speech recognition device that displays an element candidate according to likelihood information.
また、本第四の発明の音声認識装置は、第三の発明に対して、要素候補表示手段は、要素候補の尤度が最も高い並びが直線的になるように表示する、音声認識装置である。 The speech recognition apparatus according to the fourth aspect of the present invention is a speech recognition apparatus in which the element candidate display means displays the arrangement with the highest likelihood of the element candidates so that the arrangement of the element candidates is linear. is there.
また、本第五の発明の音声認識装置は、第一から第四のいずれか一項の発明に対して、要素候補に含まれる少なくとも一部の用語と同音であり、用語と異なる用語である1以上の同音用語を取得する同音用語取得手段をさらに具備し、要素候補表示手段は、同音用語取得手段が取得した1以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示する音声認識装置である。 The speech recognition apparatus according to the fifth aspect of the invention is a term different from the term, which is the same sound as at least some of the terms included in the element candidates with respect to the invention according to any one of the first to fourth aspects. The apparatus further comprises a homophone term acquisition means for acquiring one or more homophone terms, and the element candidate display means replaces the terms included in the element candidates with the homophone terms using the one or more homophone terms acquired by the homophone term acquisition means. This is a speech recognition device that also displays the selected element candidates.
また、本第六の発明の音声認識装置は、第一から第五のいずれか一項の発明に対して、要素候補選択受付手段は、ユーザによって指定された要素候補の順番に応じた要素候補の並びの選択を受け付ける、音声認識装置である。 The speech recognition apparatus according to the sixth aspect of the present invention provides the element candidate selection accepting means according to the invention according to any one of the first to fifth aspects, wherein the element candidate selection accepting means is an element candidate according to the order of the element candidates designated by the user It is a voice recognition device that accepts selection of the arrangement of.
また、本第七の発明の音声認識装置は、第一から第五のいずれか一項の発明に対して、要素候補選択受付手段は、音声認識結果情報に含まれる要素候補のいずれかの並びの選択を受け付ける、音声認識装置である。 Further, in the speech recognition device according to the seventh aspect of the invention, in contrast to the invention according to any one of the first to fifth aspects, the element candidate selection accepting unit arranges any of the element candidates included in the speech recognition result information. It is a voice recognition device that accepts the selection.
本発明による音声認識装置等によれば、音声認識後のユーザの負担を減らすことができる。 According to the speech recognition apparatus and the like according to the present invention, it is possible to reduce the burden on the user after speech recognition.
以下、音声認識装置の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。 Hereinafter, embodiments of a speech recognition apparatus will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(実施の形態1)
本実施の形態において、音声認識した際に得られる要素候補の並びを表示し、表示された要素候補から要素候補の並びを選択できる音声認識装置1について説明する。
(Embodiment 1)
In the present embodiment, a speech recognition apparatus 1 that displays a sequence of element candidates obtained upon speech recognition and can select the sequence of element candidates from the displayed element candidates will be described.
図1は、本実施の形態における音声認識装置1のブロック図である。音声認識装置1は、音声データ受付手段101、音声認識結果情報取得手段102、同音用語格納手段103、同音用語取得手段104、要素候補表示手段105、表示変更受付手段106、要素候補選択受付手段107、出力手段108、マイク1001、およびタッチパネル1002を備える。マイク1001は、ユーザが発話した音声から音声のデータである音声データを取得する。また、タッチパネル1002は、要素候補表示手段105、および出力手段108が出力した情報を表示する。また、タッチパネル1002は、ユーザが行った操作を示す情報を取得する。なお、マイク1001、およびタッチパネル1002は、公知技術であるため、それぞれの詳細な説明は省略する。
FIG. 1 is a block diagram of a speech recognition apparatus 1 in the present embodiment. The voice recognition apparatus 1 includes a voice
音声データ受付手段101は、音声データを受け付ける。この音声データは、ユーザより発話された音声のデータである。音声データ受付手段101は、発話された音声をマイク1001が集音して音声信号に変換した音声データを受け付けても良く、マイク1001以外が取得した音声データを受け付けても良い。例えば、音声データ受付手段101は、有線もしくは無線の通信回線を介して送信された音声データを受信しても良く、光ディスクや磁気ディスク、半導体メモリ等の所定の記録媒体から読み出された音声データを受け付けても良い。音声は、1または2以上の単語の音声であっても良く、1または2以上の文節の音声であっても良く、1または2以上の文章の音声であっても良い。なお、音声データ受付手段101は、受け付けを行うための、インタフェースカードやモデムやネットワークカード等のデバイスを含んでも良く、あるいは含まなくても良い。また、音声データ受付手段101は、ハードウェアによって実現されても良く、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されても良い。
The voice
音声認識結果情報取得手段102は、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する。音声認識とは、音声データが示す発話の内容を文字情報として取得する処理のことである。この文字情報は、複数の要素の集合である。音声認識の一般的な処理の流れは、音声データから人の発話を含む区間である発話区間を検出し、発話区間における音声データに音響モデルと語彙辞書に基づく音声照合を行って文字情報を取り出すという流れである。なお、音声認識結果情報取得手段102が行う音声認識処理の詳細は、いかなる処理であっても良い。音声認識の処理については、公知技術であるため、その詳細は省略する。音声認識結果情報は、音声データ受付手段101が受け付けた音声データに対して音声認識処理を実施した結果、取得された情報である。要素の単位は、単語であっても良く、形態素であっても良く、文節であっても良く、それらが混在していても良い。要素の単位は、音声認識のアルゴリズムによって決められても良い。例えば、ユーザが「きしゅうのかきをかいたい」と発話した場合の要素候補は、「紀州の」と「柿を」と「買い」と「たい」とであっても良く、「紀州」と「の」と「柿」と「を」と「買い」と「たい」とであっても良い。以下、要素の単位が、主に前者の場合について説明する。要素候補は、音声データ受付手段101が受け付けた音声データに対する音声認識の結果、取得されたものである。「候補」としているのは、本実施の形態では、音声認識の結果、2以上の要素候補の並びを取得することが前提であるからである。
The voice recognition result
音声認識結果情報は、上述のように、音声認識処理を実施した結果、音声データを要素の単位ごとに文字情報に変換した要素候補の並びを2以上含む情報である。例えば、ユーザが「きしゅうのかきをかいたい」と発話した場合に、音声認識結果情報は、「紀州の柿を買いたい」と「紀州の牡蠣を買いたい」と「紀州の花器を買いたい」等といった要素候補の並びを有していても良い。この場合の音声認識結果情報は、音声認識処理において、「柿」と「牡蠣」と「花器」とで、どの「かき」がユーザが発話した内容と同じか判断できなかったため、3種類以上の要素候補の並びを有している。なお、音声認識結果情報は、上記のように、文字列である要素候補の並びを有していても良く、要素候補をノード、要素候補間をエッジとしたグラフ構造で表現される要素候補の並びを有しても良い。 As described above, the speech recognition result information is information including two or more element candidate sequences obtained by converting speech data into character information for each element unit as a result of performing speech recognition processing. For example, when the user utters “I want to buy oysters”, the speech recognition result information is “I want to buy Kishu cocoons”, “I want to buy Kishu oysters” and “I want to buy Kishu flowers” ”Or the like. In this case, the voice recognition result information has not been able to determine which “oyster” is the same as the content spoken by the user in “、”, “oyster” and “vase” in the voice recognition process. It has a list of element candidates. Note that the speech recognition result information may have a sequence of element candidates that are character strings, as described above, and the element candidate expressed by a graph structure in which the element candidates are nodes and the element candidates are edges. You may have a line.
音声認識結果情報取得手段102は、尤度情報を含む音声認識結果情報を取得しても良い。尤度情報は、要素候補の並びに関する尤度を示す情報である。尤度とは、尤もらしさを示す値である。尤度情報は、音声認識の処理において算出される値である。尤度情報は、要素候補の並びごとの情報であっても良く、要素候補の並びの一部ごとの情報であっても良い。要素候補の並びの一部は、例えば、1個の要素候補であっても良く、2個の連続した要素候補であっても良く、3個以上の連続した要素候補であっても良い。なお、音声認識結果情報が有する要素候補の並びは、音声認識の処理において、要素候補の並びに関する尤度が所定の閾値より高い要素候補の並びであっても良く、音声認識処理で取得される要素候補の並びのうち、要素候補の並びに関する尤度が上位N件に含まれる要素候補の並びであっても良い。なお、Nは2以上の自然数とする。音声認識結果情報取得手段102は、通常、MPUやメモリ等から実現され得る。音声認識結果情報取得手段102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The speech recognition result
同音用語格納手段103には、同音用語が格納される。同音用語は、ある用語と同音であり、その用語と異なる用語である。同音とは、「柿」と「牡蠣」のように、発音が同じであることである。なお、ここでの発音には、イントネーションを含めても良く、イントネーションを含めなくても良い。なお、同音用語は、同音異義語を含んでいても良く、同音同義語を含んでいても良い。同音同義語とは、同音で同じ意味を有する用語である。同音同義語は、例えば、「十分」と「充分」とのように音と意味とが共通し、表記が異なる関係の用語である。同音用語は、ある用語と異なる用語が同じ音であることを表現できる情報であればどのような方法で表現されても良い。例えば、同音用語の表現は、「柿,牡蠣」や「柿,花器」等のように1対1の関係で同音の用語を表現しても良く、「柿,牡蠣,花器,・・・」等のように複数の同音の用語をグループ化して表現しても良い。同音用語格納手段103には、用語のみからなる同音用語が格納されていても良く、記号を含めた同音用語が格納されていても良い。記号は、例えば、「☆」や「★」等に対して、「ほし」という音をあてて、「星」や「ほし」等と対応付けても良い。 The homophone term storage means 103 stores homophone terms. A homophone term is a term that is the same as a certain term and different from that term. The same sound means that the pronunciation is the same, such as “柿” and “oyster”. It should be noted that the pronunciation here may or may not include intonation. Note that the homophone terms may include homonyms or synonyms. Homophone synonyms are terms that have the same meaning with the same sound. The synonym synonym is a term having a relationship in which the sound and the meaning are common, such as “sufficient” and “sufficient”, and the notation is different. The same sound term may be expressed by any method as long as the information can express that a different term from a certain term is the same sound. For example, homophone terms may be expressed in a one-to-one relationship such as “柿, oysters” or “柿, vase”, or “、, oysters, vases,. A plurality of terms of the same sound may be expressed as a group. The homophone term storage means 103 may store a homophone term consisting only of a term, or may store a homophone term including a symbol. For example, the symbol may be associated with “star” or “hoshi” by applying a sound “hoshi” to “☆” or “★”.
同音用語格納手段103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。同音用語格納手段103に同音用語が格納される過程は問わない。例えば、記録媒体を介して同音用語が同音用語格納手段103で格納されるようになっても良く、通信回線等を介して送信された同音用語が同音用語格納手段103で格納されるようになっても良く、あるいは、入力デバイスを介して入力された同音用語が同音用語格納手段103で格納されるようになっても良い。 The homophone term storage means 103 is preferably a non-volatile recording medium, but can also be realized by a volatile recording medium. The process of storing the homophone term in the homophone term storage means 103 does not matter. For example, a homophone term may be stored in the homophone term storage means 103 via a recording medium, and a homophone term transmitted via a communication line or the like is stored in the homophone term storage means 103. Alternatively, the homophone term input via the input device may be stored in the homophone term storage means 103.
同音用語取得手段104は、要素候補に含まれる少なくとも一部の用語の同音用語を取得する。同音用語取得手段104が同音用語を取得する用語を含む要素候補は、主に音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補である。同音用語取得手段104は、同音用語格納手段103から同音用語を取得しても良く、同音用語格納手段103以外から同音用語を取得しても良い。「同音用語格納手段103以外から同音用語を取得する」場合は、同音用語取得手段104は、図示しないネットワークを介して、外部の同音用語を検索できる装置から取得しても良い。外部の同音用語を検索できる装置とは、例えば、IME(Input Method Editor)等で使用する変換辞書を公開している装置であっても良く、同音用語格納手段103と同様の内容を格納している格納手段を有する装置であっても良い。「要素候補に含まれる少なくとも一部の用語」は、単語であっても良く、形態素であっても良い。同音用語取得手段104は、形態素解析等を行って、「要素候補に含まれる少なくとも一部の用語」を取得すると、その用語を検索キーとして用いて、同音用語格納手段103に対して検索し、同音用語を取得する。なお、同音用語を取得する場合は、同音用語取得手段104は、自立語のみから同音用語を取得しても良い。例えば、同音用語取得手段104は、名詞・代名詞・動詞・形容詞・形容動詞等を検索キーとして同音用語を取得しても良い。また、同音用語取得手段104が、文字列から単語や形態素を抽出する方法は、いかなる方法であっても良い。公知技術により形態素解析等は可能であるので、形態素解析の詳細な説明は、省略する。また、音声認識結果情報に、各要素候補の形態素解析の結果等の一部の用語を示す情報が含まれている場合は、その情報が示す用語を検索キーとして用いて、同音用語格納手段103に対して検索しても良い。同音用語取得手段104は、通常、MPUやメモリ等から実現され得る。同音用語取得手段104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The homophone
要素候補表示手段105は、音声認識結果情報が有する2以上の要素候補を表示する。要素候補表示手段105は、要素候補の2以上の並びが分かるように表示しても良く、音声データの同じ部分の音声認識の結果である2以上の要素候補ごとに表示しても良い。「要素候補の2以上の並びが分かるように表示する」場合は、要素候補表示手段105は、縦方向に要素候補の並びを並べて表示しても良く、横方向に要素候補の並びを並べて表示しても良い。「要素候補の2以上の並びが分かるように表示する」は、要素候補の並びの一部を表示することであっても良く、要素候補の並びの全てを表示することであっても良い。「音声データの同じ部分の音声認識の結果である2以上の要素候補ごとに表示する」場合は、要素候補表示手段105は、縦方向に音声データの同じ部分の音声認識の結果である要素候補を並べて表示しても良く、横方向に音声データの同じ部分の音声認識の結果である要素候補を並べて表示しても良い。また、この場合は、要素候補表示手段105は、要素候補選択受付手段107が要素候補の選択を受け付けるたびに、選択された要素候補を含む並びにおける、その要素候補の次の要素候補を表示するようにしても良い。また、この場合で、選択された要素候補が複数の要素候補の並びに含まれているときは、要素候補表示手段105は、それぞれの要素候補の並びにおける、選択された要素候補の次の要素候補を表示しても良く、選択された要素候補の次の要素候補と、その選択された要素候補の次の要素候補と同じ部分の音声データに対する音声認識の結果である要素候補とを表示しても良い。選択された要素候補の次の要素候補を表示する場合は、要素候補表示手段105は、選択された要素候補の次の要素候補を選択しやすいように表示しても良い。例えば、要素候補表示手段105は、選択された要素候補の次の要素候補を、表示する領域の上部に表示しても良く、表示する領域の中心に表示しても良い。なお、要素候補表示手段105は、音声認識結果情報に含まれる要素候補のうち、複数の要素候補の並びに含まれる、音声データの同じ部分の音声認識の結果である要素候補を重複して表示しないようにしても良く、重複して表示するようにしても良い。例えば、音声データが「きしゅうのかき」を示している場合で、音声認識結果情報に「紀州の柿」と「紀州の牡蠣」とが含まれていたときは、要素候補表示手段105は、音声データの「きしゅうの」から取得された、二つの要素候補の並びに共通する要素である「紀州の」のうち、一方の「紀州の」を表示しなくても良い。つまり、この場合は、要素候補表示手段105は、「紀州の」と「柿」と「牡蠣」とが1度の表示で1個ずつ表示されるようにしても良い。なお、「音声データの同じ部分の音声認識結果」は、音声データの一部が同じ部分の音声認識結果であっても良い。例えば、音声データが「〜は、かわらない」であった場合で、[「〜は」「瓦」「無い」]と[「〜は」「変わらない」]の2種類の要素候補の並びが取得されたとき、「瓦」と「変わらない」とが、「音声データの同じ部分の音声認識結果」であっても良い。以下、「要素候補の2以上の並びが分かるように表示する」場合について、主に説明する。
The element
また、要素候補表示手段105は、音声認識結果情報に含まれる全ての要素候補を表示しても良く、一部の要素候補を表示しても良い。例えば、図4は、ユーザが「きしゅうのかきをかいたい」と発話した場合の音声認識結果情報に含まれる全ての要素候補を表示している様子を示している。また、図7の左側は、図4と同様の音声認識結果情報に含まれる前半部分の要素候補を表示している様子を示している。要素候補表示手段105は、表示する領域のサイズ、または音声認識結果情報の情報量に応じて、その音声認識結果情報に含まれる全ての要素候補、または一部の要素候補を表示しても良い。なお、要素候補表示手段105は、表示する領域のサイズ、または音声認識結果情報の情報量から、その音声認識結果情報に含まれる全ての要素候補を表示できるかどうかを判断し、全ての要素候補を表示できる場合に、全ての要素候補を表示しても良く、全ての要素候補を表示できない場合に、一部の要素候補を表示しても良い。また、要素候補表示手段105は、表示する領域に対して、あらかじめ決められたサイズで各要素候補を表示し、全ての要素候補が表示できた場合に、全ての要素候補を表示しても良く、全ての要素候補が表示できなかった場合に一部の要素候補を表示しても良い。つまり、要素候補表示手段105は、結果として、全ての要素候補を表示しても良く、一部の要素候補を表示しても良い。全ての要素候補を表示できるかどうかを判断する場合は、要素候補表示手段105は、表示する領域に対して、あらかじめ決められたサイズで各要素候補を配置した際に、表示する領域のサイズに収まるかどうかを判断しても良く、縦方向と横方向にそれぞれいくつの要素候補が配置されるのか算出し、それらが表示する領域のサイズに収まるかどうかを判断しても良い。また、要素候補表示手段105は、全ての要素候補を表示できるように、要素候補の文字のサイズを変更して表示しても良い。なお、表示する領域のサイズは、例えば、画面のサイズであっても良く、作業ウィンドウのサイズであっても良い。
Further, the element
音声認識結果情報が尤度情報を含んでいる場合は、要素候補表示手段105は、尤度情報に応じて要素候補を表示しても良い。「尤度情報に応じて表示」する場合は、要素候補表示手段105は、例えば、要素候補の尤度の高い並びを選択しやすいよう表示しても良く、要素候補の尤度の高い並びを強調して表示しても良い。「選択しやすいよう表示」する場合は、要素候補表示手段105は、例えば、要素候補の尤度が最も高い並びが直線的になるように表示しても良く、要素候補の尤度が高い並びほど直線的になるように表示しても良い。また、「強調して表示」する場合は、要素候補表示手段105は、例えば、尤度の高い要素候補またはその並びを2重線で囲んで表示しても良く、尤度の高い要素候補またはその並びの色を変えて表示しても良い。また、「強調して表示」する場合は、要素候補表示手段105は、その尤度の値に応じて、多段階に表示方法を変えて表示しても良い。また、「直線的になるように表示」する場合は、要素候補表示手段105は、最も高い尤度を有する要素候補の並びを、表示する領域の中心に配置して表示しても良い。なお、図4は、音声認識結果情報に含まれる要素候補の並びのうち、「紀州の柿を買いたい」が最も高い尤度情報を有していたときの例を示している。例えば、図4では、要素候補表示手段105が「紀州の柿を買いたい」が直線的になるように要素候補の並びを表示している。
When the speech recognition result information includes likelihood information, the element
要素候補表示手段105は、図5のように、同音用語取得手段104が取得した1または2以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示しても良い。要素候補表示手段105は、同音用語の要素候補を、その同音用語を取得するために用いた要素候補と対応付けて表示しても良く、対応付けずに表示しても良い。対応付けて表示する場合は、要素候補表示手段105は、要素候補に、その要素候補含まれる少なくとも一部の用語を用いて取得した同音用語をつながりが分かるように表示しても良い。例えば、要素候補表示手段105は、図5の「紀州の」の部分のように、要素候補の一部の用語を同音用語で置換し、置換された部分以外の部分を省略した要素候補を表示しても良く、「解体」のところのように、要素候補の全部を同音用語で置換した要素候補を表示しても良い。前者の場合であっても、表示を省略している部分「の」は、明らかであるため、「奇襲」の表示は、要素候補の表示であると考えることができる。なお、要素候補表示手段105は、図5の「柿」等の部分のように、同音用語を非表示にした状態で表示しても良い。この場合、要素候補表示手段105は、同音用語の表示と非表示とを切り替えるインタフェースを画面内に配置しても良い。同音用語の表示と非表示とを切り替えるインタフェースは、例えば、ボタンであっても良い。要素候補表示手段105は、表示変更受付手段106が表示と非表示とを切り替えるボタンが押されたかどうかを受け付けることで、同音用語の表示と非表示とを切り替えて表示しても良い。図5において、同音用語を表示するボタンは、同音要素が表示されていない要素候補の下部にある「▽」ボタンである。また、同音用語を被表示にするボタンは、同音用語が表示されている要素候補の下部にある「△」ボタンである。なお、同音用語を表示する場合は、要素候補表示手段105は、他の要素候補に含まれている用語と同じ同音用語を表示するようにしても良く、表示しないようにしても良い。他の要素候補に含まれている用語と同じ同音用語を表示しない場合は、同音用語取得手段104がそもそも重複する同音用語を取得しないようにしても良い。また、要素候補表示手段105は、図9のように、音声認識結果情報に含まれている要素候補の並びの関係をも表示しても良い。また、要素候補表示手段105は、図10のように、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並びを明示して表示しても良い。また、要素候補表示手段105は、尤度情報をも表示しても良い。
As shown in FIG. 5, the element candidate display means 105 also displays element candidates obtained by replacing the terms included in the element candidates with the homophone terms using one or more homophone terms acquired by the homophone term acquisition means 104. May be. The element candidate display means 105 may display the element candidate of the same sound term in association with the element candidate used for acquiring the same sound term, or may display it without associating. In the case of displaying in association with each other, the element
なお、要素候補表示手段105は、表示変更受付手段106が受け付ける変更指示情報に応じて表示している情報を変更しても良い。表示変更受付手段106が受け付ける変更指示情報については、後述する。要素候補表示手段105は、ディスプレイデバイスを含むと考えても含まないと考えても良い。要素候補表示手段105は、ディスプレイデバイスのドライバーソフト、またはディスプレイデバイスのドライバーソフトとディスプレイデバイス等で実現され得る。
The element
表示変更受付手段106は、要素候補表示手段105による表示に対する変更を指示する情報である変更指示情報を受け付ける。例えば、変更指示情報は、要素候補を拡大させる指示を示す情報であっても良く、縮小させる指示を示す情報であっても良く、全ての要素候補を表示させる指示を示す情報であっても良く、一部の要素候補を表示させる指示を示す情報であっても良く、同音用語を表示させる指示を示す情報であっても良く、同音用語を非表示にする指示を示す情報であっても良く、画面をスクロールさせる指示を示す情報であっても良い。なお、画面をスクロールさせる指示を示す情報には、スクロールさせる分量を示す数値情報が含まれていても良い。表示変更受付手段106は、タッチパネル1002から変更指示情報を受け付けるが、タッチパネル1002以外から変更指示情報を受け付けても良い。タッチパネル1002以外から変更指示情報を受け付ける場合は、例えば、テンキーやキーボードやマウスやメニュー画面によるもの等から変更指示情報を受け付けても良い。表示変更受付手段106は、タッチパネル1002やテンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The display
要素候補選択受付手段107は、要素候補表示手段105による要素候補の表示に対して、要素候補の並びの選択を受け付ける。要素候補選択受付手段107は、ユーザが行った選択を受け付ける。要素候補選択受付手段107が受け付ける選択の要素候補の並びは、ユーザによって指定された要素候補の順番に応じた要素候補の並びであっても良く、音声認識結果情報に含まれる要素候補のいずれかの並びであっても良い。なお、要素候補の並びを選択するユーザは、音声データ受付手段101に音声データを入力したユーザと同一人物であっても良く、異なる人物であっても良い。また、要素候補選択受付手段107は、同音用語である要素候補をも含む要素候補の並びを選択しても良い。
The element candidate
「ユーザによって指定された要素候補の順番に応じた要素候補の並び」の選択を受け付ける場合は、要素候補選択受付手段107は、ユーザが選択した順に並んだ要素候補の並びを受け付ける。この場合、例えば、図8のように、ユーザは、出力したい順番で要素候補の並びを選択できる。なお、図8の場合は、要素候補選択受付手段107は、「柿を」「買い」「たい」「紀州の」という要素候補の並びの選択を受け付ける。「音声認識結果情報に含まれている要素候補のいずれかの並び」の選択を受け付ける場合は、要素候補表示手段105は、図11のように、ユーザが、あらかじめ決められたいくつかの要素候補の並びから選択できるように表示しても良い。なお、図11の場合は、要素候補選択受付手段107は、「紀州の」「柿を」「買い」「たい」という要素候補の並びの選択を受け付ける。なお、要素候補選択受付手段107が受け付ける要素候補、および要素候補の並びは、そのままの情報であっても良く、要素候補、および要素候補の並びを識別する情報であっても良い。要素候補、および要素候補の並びを識別する情報は、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補、および要素候補の並びを識別する情報である。
When receiving the selection of “element candidate arrangement according to the order of element candidates designated by the user”, the element candidate
要素候補選択受付手段107は、タッチパネル1002から要素候補の並びの選択を受け付けるが、タッチパネル1002以外から要素候補の並びの選択を受け付けても良い。タッチパネル1002以外から要素候補の並びの選択を受け付ける場合は、要素候補選択受付手段107は、例えば、テンキーやキーボードやマウスによるもの等から要素候補の並びの選択を受け付けても良い。要素候補選択受付手段107は、タッチパネル1002やテンキーやキーボード等の入力手段のデバイスドライバー等で実現され得る。
The element candidate
出力手段108は、要素候補選択受付手段107が選択を受け付けた要素候補の並びである出力情報を出力する。出力情報は、要素候補の並びを、区切り文字等を用いずにつなげた1個の文字列であっても良い。出力手段108は、要素候補選択受付手段107が、「ユーザによって指定された要素候補の順番に応じた要素候補の並び」の選択を受け付けた場合は、その要素候補の並びの順に出力情報を構成しても良い。また、出力手段108は、要素候補選択受付手段107が、「音声認識結果情報に含まれる要素候補のいずれかの並び」の選択を受け付けた場合は、音声認識結果情報に含まれる要素候補の選択された並びの順に出力情報を構成しても良い。なお、出力手段108は、他の構成要素、または他の装置に対して出力しても良い。例えば、出力手段108は、検索キーワードを受け付ける装置や、文章を作成するアプリケーション等に対して出力しても良い。出力手段108は、出力を行うデバイス(例えば、表示デバイスやプリンタ等)を含んでも良く、あるいは含まなくても良い。また、出力手段108は、ハードウェアによって実現されても良く、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されても良い。
The output means 108 outputs output information that is a list of element candidates that the element candidate selection accepting means 107 has accepted. The output information may be a single character string obtained by connecting a sequence of element candidates without using a delimiter or the like. When the element candidate
図2は、本実施の形態における音声認識装置1の動作の一例を示すフローチャートである。以下、図2を用いて動作について説明する。 FIG. 2 is a flowchart showing an example of the operation of the speech recognition apparatus 1 in the present embodiment. The operation will be described below with reference to FIG.
(ステップS201)音声データ受付手段101は、音声データを受け付けたかどうか判断する。音声データを受け付けた場合は、ステップS202へ進み、音声データ受け付けなかった場合は、音声データを受け付けるまでステップS201の処理を繰り返す。
(Step S201) The voice
(ステップS202)音声認識結果情報取得手段102は、ステップS201で受け付けた音声データを音声認識した結果である音声認識結果情報を取得する。
(Step S202) The voice recognition result
(ステップS203)同音用語取得手段104は、ステップS202で取得した音声認識結果情報に含まれている要素候補に含まれている用語の同音用語を取得する。
(Step S203) The homophone
(ステップS204)要素候補表示手段105は、ステップS202で取得した音声認識結果情報に含まれている全ての要素候補を、表示する領域に表示できるかどうか判断する。表示できない場合は、ステップS205へ進み、表示できる場合は、ステップS206へ進む。 (Step S204) The element candidate display means 105 determines whether or not all element candidates included in the speech recognition result information acquired in step S202 can be displayed in the display area. If it cannot be displayed, the process proceeds to step S205. If it can be displayed, the process proceeds to step S206.
(ステップS205)要素候補表示手段105は、ステップS202で取得した音声認識結果情報に含まれている要素候補の一部を表示する。
(Step S205) The element
(ステップS206)要素候補表示手段105は、ステップS202で取得した音声認識結果情報に含まれている要素候補の全部を表示する。 (Step S206) The element candidate display means 105 displays all of the element candidates included in the speech recognition result information acquired in step S202.
(ステップS207)表示変更受付手段106は、表示に対する変更を受け付けたかどうか判断する。表示に対する変更を受け付けた場合は、ステップS208へ進み、表示に対する変更を受け付けなかった場合は、ステップS209へ進む。 (Step S207) The display change receiving means 106 determines whether a change to the display has been received. If a change to the display has been accepted, the process proceeds to step S208. If a change to the display has not been accepted, the process proceeds to step S209.
(ステップS208)要素候補表示手段105は、表示変更受付手段106が受け付けた変更指示情報に応じて表示を変更する。そして、ステップS207へ戻る。
(Step S208) The element
(ステップS209)要素候補変更受付手段106は、要素候補の並びの選択を受け付けたかどうか判断する。選択を受け付けた場合は、ステップS210へ進み、選択を受け付けなかった場合は、ステップS207へ戻る。 (Step S209) The element candidate change accepting means 106 judges whether or not selection of the arrangement of element candidates has been accepted. If the selection is accepted, the process proceeds to step S210. If the selection is not accepted, the process returns to step S207.
(ステップS210)出力手段108は、ステップS209で受け付けた選択の要素候補の並びである出力情報を出力する。そして、ステップS201へ戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
(Step S <b> 210) The
In the flowchart of FIG. 2, the process is terminated by powering off or a process termination interrupt.
以下、本実施の形態における音声認識装置1の具体的な動作について説明する。なお、本具体例において示した各図面の情報は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。なお、本具体例において、音声認識結果情報取得手段102は、音声認識結果情報を取得する際に、その音声認識結果情報に含まれる要素候補のそれぞれの並びの尤度情報も取得するものとする。また、本具体例において、音声認識結果情報取得手段102が取得する音声認識結果情報に含まれる要素候補には、形態素解析の結果を含んでいるものとする。
Hereinafter, a specific operation of the speech recognition apparatus 1 in the present embodiment will be described. In addition, the information of each drawing shown in this specific example is prepared for convenience of explanation, and does not indicate actual data. In this specific example, when the speech recognition result
本具体例において、同音用語格納手段103には、図3で示されるテーブルが格納されているものとする。図3のテーブルは、同音用語を有している。例えば、同音用語「かき,カキ,柿,火器,牡蠣,下記,火器」が登録されている。 In this specific example, it is assumed that the same term storage means 103 stores the table shown in FIG. The table of FIG. 3 has homophone terms. For example, the homophone term “oyster, oyster, firewood, firearm, oyster, below, firearm” is registered.
ユーザは、音声認識装置1とリンクする電子メールを作成するソフトウェアであるメーラーを起動し、メールの作成を開始したとする。そして、ユーザは、「音声入力ボタン」を押して、音声入力機能を有する音声認識装置1を立ち上げ、マイク1001に向かって「きしゅうのかきをかいたい」と発話したものとする。
It is assumed that the user activates a mailer that is software for creating an e-mail linked to the voice recognition device 1 and starts creating a mail. Then, it is assumed that the user presses the “voice input button”, starts up the voice recognition device 1 having a voice input function, and speaks to the
音声データ受付手段101は、マイク1001が取得した音声データ「きしゅうのかきをかいたい」を受け付ける(ステップS201)。音声データ受付手段101が受け付けた音声データは、音声認識結果情報取得手段102によって音声認識処理が実行される。そして、音声認識結果情報取得手段102は、音声認識結果情報{[「紀州の」「柿を」「買い」「たい」,0.88],[「紀州の」「牡蠣を」「買い」「たい」,0.72],[「紀州の」「花器を」「買い」「たい」,0.68],[「紀州の」「牡蠣を」「解体」,0.55],[「紀州の」「花器を」「解体」,0.52]}を取得したものとする(ステップS202)。なお、ここで取得した音声認識結果情報に含まれる要素候補の並びの後ろの数字は、直前の要素候補の並びに対応する尤度情報であるものとする。同音用語取得手段104は、この音声認識結果情報を渡されると音声認識結果情報が有する要素候補に含まれている形態素のうち、助詞と助動詞とを除いた形態素「紀州」と「牡蠣」と「柿」と「花器」と「買い」と「解体」とに対応する同音用語を取得する。その結果、同音用語取得手段104は、「紀州」に対応する同音用語「きしゅう,キシュウ,奇襲,既修,貴酬」等のように、助詞と助動詞とを除いた音声認識結果情報に含まれる全て要素候補の形態素の同音用語を取得したものとする(ステップS203)。同音用語取得手段104によって同音用語を取得されると、要素候補表示手段105は、この音声認識結果情報に含まれる要素候補の並びが、タッチパネル1002の表示する領域に全て表示できかどうかを判断する(ステップS204)。ここでは、要素候補表示手段105は、全て表示できると判断したものとする。要素候補表示手段105は、音声認識結果情報に含まれる尤度情報が「0.88」で最も高い「紀州の」「柿を」「買い」「たい」の要素候補が表示する領域の中央に直線的に並ぶようにして表示する。なお、ここでは、同音用語は、非表示の状態で表示されるものとし、他の要素候補の並びに含まれる、音声データの同じ部分の認識結果である要素候補も表示しないようにした。この場合のタッチパネル1002の画面には、図4のように表示される(ステップS205)。
The voice
ユーザは、図4の画面を確認すると、タッチパネルを操作して、「紀州の」の下部にある「▽」ボタンを押したものとする。表示変更受付手段106は、「紀州の」の同音用語を表示させる変更指示情報を受け付ける(ステップS207)。要素候補表示手段105は、「紀州の」の同音用語を表示させる変更指示情報に応じて、「紀州の」の同音用語を表示する(ステップS208)。さらに、ユーザは、「解体」の下部にある「▽」ボタンを押したものとする。「解体」の同音用語を表示させる変更指示情報は、同様に表示変更受付手段106が受け付け、要素候補表示手段105が、「解体」の同音用語を表示する。すると、図5のように表示される。
When the user confirms the screen of FIG. 4, the user operates the touch panel and presses the “▽” button at the bottom of “Kishu”. The display
ユーザは、タッチパネルを操作して、「紀州の」と「柿を」と「買い」と「たい」とをこの順に選択したものとする。すると、要素候補選択受付手段107は、要素候補の並び[「紀州の」,「柿を」,「買い」,「たい」]を受け付ける(ステップS209)。要素候補選択受付手段107が選択を受け付けると、出力手段108は、要素候補選択受付手段107が受け付けた要素候補の並びから出力情報「紀州の柿を買いたい」を構成し、メーラーに出力する(ステップS210)。すると、メーラーは、図6のように表示する。
It is assumed that the user operates the touch panel to select “Kishu no”, “Kashiwa”, “Buy”, and “Tai” in this order. Then, the element candidate selection accepting means 107 accepts an array of element candidates [“Kishu no”, “Saga”, “Buy”, “I want”] (step S209). When the element candidate
本具体例では、要素候補表示手段105が、この音声認識結果情報に含まれる要素候補の並びを、タッチパネル1002の表示する領域に全て表示できると判断した場合について説明したが、要素候補表示手段105がタッチパネル1002の表示する領域に全ての要素候補の並びが表示できないと判断した場合には、要素候補表示手段105は、音声認識結果情報に含まれる要素候補の並びの一部の要素候補を表示する(ステップS204)。すると、図7の左の図のように表示される。そして、ユーザは、タッチパネル1002を右から左へフリックしたものとする。すると、表示変更受付手段106は、画面をスクロールさせる指示を示す変更指示情報を受け付ける(ステップS207)。要素候補表示手段105は、変更指示情報に含まれるスクロールさせる分量に応じて、全ての要素候補が右から左へ移動するように見えるよう表示している要素候補を左へ移動させて表示する(ステップS208)。すると、図7の右の図のように表示される。
In this specific example, the case where the element
また、本具体例では、ユーザが、「紀州の」と「柿を」と「買い」と「たい」とを順に選択した場合について説明したが、ユーザが、図8のように、「柿を」と「買い」と「たい」と「紀州の」とを順に選択した場合は、要素候補選択受付手段107は、その順番通りの要素候補の並びの選択を受け付ける(ステップS209)。要素候補選択受付手段107が選択を受け付けると、出力手段108は、要素候補選択受付手段107が受け付けた要素候補の並びから出力情報「柿を買いたい紀州の」を構成し、メーラーに出力する(ステップS210)。なお、要素候補選択受付手段107は、ユーザが選択した順番にかかわらず音声認識結果情報に含まれる要素候補の並びと同じ順番になるように受け付けても良い(ステップS209)。
Further, in this specific example, the case where the user selects “Kishu”, “柿”, “Buy”, and “Tai” in order has been described. However, as shown in FIG. "," Buy "," tai "and" Kishu "are selected in order, the element candidate selection receiving means 107 receives selection of the arrangement of element candidates in that order (step S209). When the element candidate
また、本具体例では、要素候補表示手段105は、図4のように表示したが、要素候補表示手段105は、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並びが分かるように表示しても良い。例えば、要素候補表示手段105は、図9のように、音声認識結果情報に含まれている要素候補の並びの関係を矢印で接続することで表示しても良く、図10のように、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並び全体を矢印で明示して表示しても良い。なお、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並びが分かるように表示した場合に、ユーザが、図11のように、要素候補の並びの矢印を選択したものとする。すると要素候補選択受付手段107は、「紀州の」「柿を」「食べ」「たい」の順に要素候補の並びの選択を受け付ける。
Further, in this specific example, the element candidate display means 105 is displayed as shown in FIG. 4, but the element candidate display means 105 displays the element candidates included in the speech recognition result information acquired by the speech recognition result information acquisition means 102. It may be displayed so that the arrangement can be understood. For example, the element candidate display means 105 may display the relationship of the arrangement of element candidates included in the speech recognition result information by connecting with arrows as shown in FIG. The entire arrangement of element candidates included in the speech recognition result information acquired by the recognition result
本実施の形態において、要素候補表示手段105が、要素候補を表示し、要素候補選択受付手段107が、ユーザによる、要素候補の並びの選択を受け付けることができる。要素候補の並びから、ユーザが取得したい要素候補の並びを選択できる。その結果、例えば、これまで行われてきた、ユーザによる誤認識箇所の修正の作業が、要素候補の並びの選択のみですむため、要素候補の並びを選択するユーザの負担が軽減される。また、要素候補表示手段105が、音声認識結果情報に含まれる要素候補のうち、複数の要素候補の並びに含まれる、音声データの同じ部分の音声認識の結果である要素候補を重複して表示しない場合は、要素候補の全ての並びを列挙するよりも無駄な情報が少なくなるため、一覧性の高い表示ができる。その結果、例えば、ユーザは、容易に要素候補の並びを選択できる。また、要素候補表示手段105が、音声認識結果情報に含まれる要素候補の並びの量に応じて表示を変更できるようにする場合は、例えば、タブレット端末とスマートフォンとで異なる表示が実現できる。具体的には、タブレット端末では、全ての要素候補を表示し、スマートフォンでは、一部の要素候補を表示する等、画面のサイズに適した表示ができる。また、要素候補表示手段105が、尤度情報に応じて要素候補の並びを表示できるようにする場合は、例えば、尤度情報の高い要素候補の並びを選択しやすいように表示できる。その結果、例えば、ユーザが、適切な要素候補を探す時間が短縮される。また、要素候補表示手段105が、尤度情報が高い要素候補の並びを直線的に表示できるようにする場合は、例えば、多くの場合において、ユーザは、直線をなぞるように尤度の高い要素候補の並びを選択するだけで、適切な要素候補の並びを選択できる。その結果、例えば、ユーザが、適切な要素候補を探す時間が短縮される。また、要素候補表示手段105が、表示する各要素候補に対応する同音用語を表示できるようにする場合は、音声認識で認識されなかった同音の用語も要素候補の並びに含めて選択できる。また、要素候補選択受付手段107が、ユーザによって指定された要素候補の順番に応じた要素候補の並びの選択を受け付ける場合には、音声認識結果情報に含まれない順番の要素候補の並びからも出力情報を構成できる。例えば、ユーザは、発話時と異なる順番の出力情報を出力させることができる。また、要素候補選択受付手段107が、ユーザによって指定された要素候補の順番に関わらず、音声認識結果情報に含まれる要素候補の並びの選択を受け付ける場合には、選択したい要素候補の並びに含まれる全ての要素候補を選択しなくても、要素候補の並びを選択するだけで出力情報を構成できる。
In the present embodiment, the element
なお、本実施の形態では、マイク1001を含む場合について説明したが、音声認識装置1は、マイク1001を含んでいなくても良い。音声認識装置1がマイク1001を含まない場合は、音声データ受付手段101は、図示しない格納手段に格納されている音声データを受け付けても良く、図示しないネットワークを介して音声データを受信しても良く、外部の装置に含まれるマイクで録音した音声データを、メモリーカード等の記憶媒体を介して受け付けても良い。
In the present embodiment, the case where the
また、本実施の形態では、タッチパネル1002を含む場合について説明したが、音声認識装置1は、タッチパネル1002を含んでいなくても良い。音声認識装置1がタッチパネル1002を含まない場合は、要素候補表示手段105は、他のディスプレイに表示しても良く、出力手段108は、他のディスプレイ、他の装置、または他の構成要素に出力しても良い。また、タッチパネル1002を含まない場合は、表示変更受付手段106は、ユーザがマウスやキーボード等を用いて出力した変更指示情報を受け付けても良く、要素候補選択受付手段107は、ユーザがマウスやキーボード等を用いて選択した要素候補の並びの選択を受け付けても良い。
In this embodiment, the case where the
また、本実施の形態では、表示変更受付手段106を含む場合について説明したが、音声認識装置1は、表示変更受付手段106を含んでいなくても良い。音声認識装置1が表示変更受付手段106を含んでいない場合は、要素候補表示手段105は、要素候補を選択する度に、次の要素候補を表示するように表示する要素候補を変更しても良い。
In the present embodiment, the case where the display
また、本実施の形態では、同音用語格納手段103と同音用語取得手段104とを含む場合について説明したが、音声認識装置1は、同音用語格納手段103と同音用語取得手段104とを含んでいなくても良い。音声認識装置1が、同音用語格納手段103と同音用語取得手段104とを含んでいない場合は、要素候補表示手段105は、同音用語を表示しなくても良い。
Further, in the present embodiment, the case where the homonym
また、本実施の形態における音声認識装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、コンピュータを、ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段、音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声認識の単位である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段、音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段、要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段、要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段として機能させるためのプログラムである。 Moreover, the software which implement | achieves the speech recognition apparatus 1 in this Embodiment is the following programs. That is, the program causes the computer to perform voice recognition processing on the voice data received by the voice data receiving means, voice data receiving means that receives voice data that is voice data spoken by the user, and Speech recognition result information acquisition means for acquiring speech recognition result information including two or more arrangements of element candidates that are candidate elements, element candidate display means for displaying two or more element candidates included in the speech recognition result information, and elements In response to the display of element candidates by the candidate display means, as an element candidate selection accepting means for accepting selection of the arrangement of element candidates, an output means for outputting output information that is an array of element candidates accepted by the element candidate selection accepting means It is a program to make it function.
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。 In the present embodiment, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. Also good. In the present embodiment, it goes without saying that two or more communication means existing in one apparatus may be physically realized by one medium.
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、またはソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。 In the present embodiment, each component may be configured by dedicated hardware, or the component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部等におけるモデムやインタフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。 In the program, the functions realized by the program do not include functions that can be realized only by hardware. For example, functions that can be realized only by hardware such as a modem and an interface card in an acquisition unit that acquires information, an output unit that outputs information, and the like are not included in the functions realized by the program.
図12は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの内部構成の一例を示す図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図12において、コンピュータシステム1000は、マイク1001と、タッチパネル1002と、MPU1003と、ブートアッププログラム等のプログラム、およびデータを格納するためのフラッシュROM1004と、アプリケーションプログラムの命令を一時的に格納すると共に、一時記憶空間を提供するRAM1005と、MPU1003等を相互に接続するバス1006とを備える。
FIG. 12 is a diagram illustrating an example of an internal configuration of a computer that executes the program and implements the present invention according to the embodiment. The embodiment described above can be realized by computer hardware and a computer program executed on the computer hardware. In FIG. 12, a
プログラムは、コンピュータシステム1000に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1000がどのように動作するのかについては周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」と読み替えても良い。 The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention. The “means” of each means in the present invention may be read as “part” or “circuit”.
以上のように、本発明にかかる音声認識装置等は、音声認識後のユーザの負担を減らす効果を有し、音声認識装置等として有用である。 As described above, the speech recognition apparatus and the like according to the present invention have an effect of reducing the burden on the user after speech recognition, and are useful as a speech recognition apparatus and the like.
1 音声認識装置
101 音声データ受付手段
102 音声認識結果情報取得手段
103 同音用語格納手段
104 同音用語取得手段
105 要素候補表示手段
106 表示変更受付手段
107 要素候補選択受付手段
108 出力手段
DESCRIPTION OF SYMBOLS 1
Claims (9)
前記音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段と、
前記音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段と、
前記要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段と、
前記要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段とを具備し、
前記音声認識結果情報に含まれる2以上の要素候補のうちの少なくとも1以上の各要素候補に含まれる一部の用語と同音であり、当該用語と異なる用語である1以上の同音用語を取得する同音用語取得手段をさらに具備し、
前記要素候補表示手段は、
前記同音用語取得手段が取得した1以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示する音声認識装置。 Voice data receiving means for receiving voice data which is voice data spoken by the user;
A speech recognition result including two or more sequences of element candidates that are candidates for elements that are part of the speech recognition result corresponding to the speech data, by performing speech recognition processing on the speech data received by the speech data receiving unit Speech recognition result information acquisition means for acquiring information;
Element candidate display means for displaying two or more element candidates included in the speech recognition result information;
Element candidate selection accepting means for accepting selection of the arrangement of element candidates for display of element candidates by the element candidate display means;
Output means for outputting output information that is a list of element candidates for which the element candidate selection receiving means has received selection ;
One or more homophone terms that are the same sound as a part of at least one of the two or more element candidates included in the speech recognition result information and that are different from the term are acquired. Further comprising a homonym term acquisition means,
The element candidate display means includes
A speech recognition apparatus that also displays an element candidate obtained by replacing a term included in an element candidate with the same term using one or more same term obtained by the same term term acquisition means .
表示する領域のサイズ、または前記音声認識結果情報の情報量に応じて、前記音声認識結果情報の全ての要素候補、または一部の要素候補を表示する、請求項1記載の音声認識装置。 The element candidate display means includes
The speech recognition apparatus according to claim 1, wherein all or some element candidates of the speech recognition result information are displayed according to a size of a region to be displayed or an amount of information of the speech recognition result information.
要素候補の並びに関する尤度である尤度情報を含む音声認識結果情報を取得し、
前記要素候補表示手段は、
前記尤度情報に応じて要素候補を表示する、請求項1または2記載の音声認識装置。 The voice recognition result information acquisition means includes
Obtain speech recognition result information including likelihood information that is the likelihood related to the arrangement of element candidates,
The element candidate display means includes
The speech recognition apparatus according to claim 1, wherein element candidates are displayed according to the likelihood information.
要素候補の尤度が最も高い並びが直線的になるように表示する、請求項3記載の音声認識装置。 The element candidate display means includes
The speech recognition apparatus according to claim 3, wherein the arrangement having the highest likelihood of element candidates is displayed so as to be linear.
前記同音用語取得手段は、
前記要素候補に含まれる自立語のみから同音用語を取得する請求項1から請求項4のいずれか一項記載の音声認識装置。 One or more element candidates of the two or more element candidates included in the speech recognition result information include independent words and non-independent words,
The homonym term acquisition means includes:
The speech recognition device according to any one of claims 1 to 4, wherein a homonym term is acquired only from an independent word included in the element candidate .
ユーザによって指定された要素候補の順番に応じた要素候補の並びの選択を受け付ける、請求項1から請求項5のいずれか一項記載の音声認識装置。 The element candidate selection receiving means
The speech recognition device according to any one of claims 1 to 5, which receives selection of an arrangement of element candidates according to an order of element candidates designated by a user.
前記音声認識結果情報に含まれる要素候補のいずれかの並びの選択を受け付ける、請求項1から請求項5のいずれか一項記載の音声認識装置。 The element candidate selection receiving means
The speech recognition apparatus according to any one of claims 1 to 5, which receives selection of any one of element candidates included in the speech recognition result information.
前記音声データ受付手段が、ユーザより発話された音声のデータである音声データを受け付ける音声データ受付ステップと、
前記音声認識結果情報取得手段が、前記音声データ受付ステップが受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得ステップと、
前記要素候補表示手段が、前記音声認識結果情報が有する2以上の要素候補を表示する要素候補表示ステップと、
前記要素候補選択受付手段が、前記要素候補表示ステップによる要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付ステップと、
前記出力手段が、前記要素候補選択受付ステップが選択を受け付けた要素候補の並びである出力情報を出力する出力ステップとを具備し、
前記音声認識結果情報に含まれる2以上の要素候補のうちの少なくとも1以上の各要素候補に含まれる一部の用語と同音であり、当該用語と異なる用語である1以上の同音用語を取得する同音用語取得ステップとをさらに具備し、
前記要素候補表示ステップにおいて、
前記同音用語取得ステップで取得された1以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示する音声認識方法。 A speech recognition method processed using speech data reception means, speech recognition result information acquisition means, element candidate display means, element candidate selection reception means, and output means,
A voice data receiving step in which the voice data receiving means receives voice data which is voice data spoken by a user;
The voice recognition result information acquisition means performs voice recognition processing on the voice data received by the voice data receiving step, and selects candidate elements that are candidates for elements that are part of the voice recognition result corresponding to the voice data. A voice recognition result information acquisition step for acquiring voice recognition result information including two or more sequences;
An element candidate display step in which the element candidate display means displays two or more element candidates included in the speech recognition result information;
The element candidate selection accepting means for accepting selection of the arrangement of element candidates for displaying the element candidates in the element candidate display step; and
The output means includes an output step of outputting output information that is an array of element candidates that the element candidate selection receiving step has received selection;
One or more homophone terms that are the same sound as a part of at least one of the two or more element candidates included in the speech recognition result information and that are different from the term are acquired. A homonym term acquisition step,
In the element candidate display step,
A speech recognition method for displaying an element candidate obtained by replacing a term included in an element candidate with a homophone term by using one or more homophone terms acquired in the homophone term acquisition step .
ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段、
前記音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段、
前記音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段、
前記要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段、
前記要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段として機能させるためのプログラムであって、
コンピュータを、
前記音声認識結果情報に含まれる2以上の要素候補のうちの少なくとも1以上の各要素候補に含まれる一部の用語と同音であり、当該用語と異なる用語である1以上の同音用語を取得する同音用語取得手段としてさらに機能させ、
前記要素候補表示手段は、
前記同音用語取得手段が取得した1以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示するものとしてコンピュータを機能させるためのプログラム。 Computer
Voice data receiving means for receiving voice data which is voice data spoken by the user;
A speech recognition result including two or more sequences of element candidates that are candidates for elements that are part of the speech recognition result corresponding to the speech data, by performing speech recognition processing on the speech data received by the speech data receiving unit Voice recognition result information acquisition means for acquiring information,
Element candidate display means for displaying two or more element candidates included in the voice recognition result information;
Element candidate selection accepting means for accepting selection of the arrangement of element candidates for displaying the element candidates by the element candidate display means,
A program for causing the element candidate selection accepting means to function as an output means for outputting output information that is an array of element candidates accepted for selection ,
Computer
One or more homophone terms that are the same sound as a part of at least one of the two or more element candidates included in the speech recognition result information and that are different from the term are acquired. Further function as a homonym term acquisition means,
The element candidate display means includes
A program for causing a computer to function as an element candidate obtained by replacing a term included in an element candidate with a homophone term using one or more homophone terms acquired by the homophone term acquisition means .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013053290A JP5701327B2 (en) | 2013-03-15 | 2013-03-15 | Speech recognition apparatus, speech recognition method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013053290A JP5701327B2 (en) | 2013-03-15 | 2013-03-15 | Speech recognition apparatus, speech recognition method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014178567A JP2014178567A (en) | 2014-09-25 |
JP5701327B2 true JP5701327B2 (en) | 2015-04-15 |
Family
ID=51698552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013053290A Active JP5701327B2 (en) | 2013-03-15 | 2013-03-15 | Speech recognition apparatus, speech recognition method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5701327B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844470A (en) * | 2016-09-18 | 2018-03-27 | 腾讯科技(深圳)有限公司 | A kind of voice data processing method and its equipment |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6884263B2 (en) * | 2018-02-21 | 2021-06-09 | 三菱電機株式会社 | Display control device and display control method |
JP7053069B2 (en) * | 2019-03-11 | 2022-04-12 | 株式会社RevComm | Information processing equipment |
CN116580701B (en) * | 2023-05-19 | 2023-11-24 | 国网物资有限公司 | Alarm audio frequency identification method, device, electronic equipment and computer medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148747A (en) * | 1998-11-12 | 2000-05-30 | Omron Corp | Conversion candidate display method, record medium for program for japanese syllabary-to-chinese character conversion by same method, and japanese syllbary-to- chinese character conversion device |
JP3795692B2 (en) * | 1999-02-12 | 2006-07-12 | マイクロソフト コーポレーション | Character processing apparatus and method |
JP3762300B2 (en) * | 2001-12-28 | 2006-04-05 | 株式会社東芝 | Text input processing apparatus and method, and program |
JP2005044103A (en) * | 2003-07-28 | 2005-02-17 | Toshiba Corp | Document creation device and method and program |
JP4604178B2 (en) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | Speech recognition apparatus and method, and program |
JP4845955B2 (en) * | 2008-12-11 | 2011-12-28 | 株式会社エヌ・ティ・ティ・ドコモ | Speech recognition result correction apparatus and speech recognition result correction method |
-
2013
- 2013-03-15 JP JP2013053290A patent/JP5701327B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844470A (en) * | 2016-09-18 | 2018-03-27 | 腾讯科技(深圳)有限公司 | A kind of voice data processing method and its equipment |
Also Published As
Publication number | Publication date |
---|---|
JP2014178567A (en) | 2014-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2012227212B2 (en) | Consolidating speech recognition results | |
TWI293455B (en) | System and method for disambiguating phonetic input | |
RU2379767C2 (en) | Error correction for speech recognition systems | |
CN103645876B (en) | Voice inputting method and device | |
JP4829901B2 (en) | Method and apparatus for confirming manually entered indeterminate text input using speech input | |
US20090326938A1 (en) | Multiword text correction | |
JP5535238B2 (en) | Information processing device | |
KR101474854B1 (en) | Apparatus and method for selecting a control object by voice recognition | |
US20160055763A1 (en) | Electronic apparatus, pronunciation learning support method, and program storage medium | |
US9009051B2 (en) | Apparatus, method, and program for reading aloud documents based upon a calculated word presentation order | |
JP4872323B2 (en) | HTML mail generation system, communication apparatus, HTML mail generation method, and recording medium | |
JP5701327B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP5231484B2 (en) | Voice recognition apparatus, voice recognition method, program, and information processing apparatus for distributing program | |
KR20170009486A (en) | Database generating method for chunk-based language learning and electronic device performing the same | |
JP3762300B2 (en) | Text input processing apparatus and method, and program | |
CN1965349A (en) | Multimodal disambiguation of speech recognition | |
JP2019101739A (en) | Information processor, information processing system and program | |
JP2002207728A (en) | Phonogram generator, and recording medium recorded with program for realizing the same | |
JP5318030B2 (en) | Input support apparatus, extraction method, program, and information processing apparatus | |
JP5474723B2 (en) | Speech recognition apparatus and control program therefor | |
JP2006031725A (en) | Character processor | |
KR20160054751A (en) | System for editing a text and method thereof | |
CN112786002B (en) | Voice synthesis method, device, equipment and storage medium | |
JP2003288098A (en) | Device, method and program of dictation | |
JP2007171275A (en) | Language processor and language processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5701327 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |