JP2011027971A - 音声認識装置、音声認識方法及びそのプログラム - Google Patents

音声認識装置、音声認識方法及びそのプログラム Download PDF

Info

Publication number
JP2011027971A
JP2011027971A JP2009173104A JP2009173104A JP2011027971A JP 2011027971 A JP2011027971 A JP 2011027971A JP 2009173104 A JP2009173104 A JP 2009173104A JP 2009173104 A JP2009173104 A JP 2009173104A JP 2011027971 A JP2011027971 A JP 2011027971A
Authority
JP
Japan
Prior art keywords
recognition
vocabulary
speech
recognition vocabulary
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009173104A
Other languages
English (en)
Other versions
JP5493537B2 (ja
Inventor
Takuya Noda
拓也 野田
Hitoshi Iwamida
均 岩見田
Kazuhiro Watanabe
一宏 渡辺
Nobuyuki Katae
伸之 片江
Kentaro Murase
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009173104A priority Critical patent/JP5493537B2/ja
Publication of JP2011027971A publication Critical patent/JP2011027971A/ja
Application granted granted Critical
Publication of JP5493537B2 publication Critical patent/JP5493537B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識装置の認識辞書において、ユーザの発声入力に発声区切りや発声誤りが生じ易い認識語彙についても、確実に認識することが可能な音声認識装置及び音声認識方法を提供することを目的とする
【解決手段】音声認識装置は、認識語彙を記憶する認識辞書と、認識語彙を複数の部分認識語彙に分割する解析部と、部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行い、派生認識語彙を生成する派生認識語彙生成部と、音声データの入力を受け付ける音声入力部と、音声データの音声区間を検出する音声検出部と、音声データを認識辞書に記憶された認識語彙と派生認識語彙生成部で生成された派生認識語彙を用いて音声認識処理を行う音声認識部を備える。
【選択図】図1

Description

本発明は、人間が発声する音声を認識する音声認識装置に関する。
たとえば、カーナビゲーションシステムでは、人間が発声する音声を認識し、機械に対する音声コマンドとして入力を受け付ける音声認識装置を備えている。カーナビゲーションシステムでは、受け付けた音声コマンドに対応する処理を実行し、ディスプレイや音声合成部を介して処理結果に対応する出力を行う。
音声認識装置は、音声コマンドに対応する認識語彙が記憶される認識辞書を備えている。音声認識装置は、ユーザが発声した音声を認識辞書に記憶されている認識語彙と比較して、比較結果として得られた音声コマンドを他の処理部に送信することとなる。
ユーザが音声コマンドを発声する場合には、認識辞書に登録されている認識語彙を発声することとなるが、認識語彙の文節境界においてわずかな発声区切りを入れる傾向にある。また、音声コマンドに対応する認識語彙が長い場合には、ユーザはこれを発声する際に、品詞境界においてわずかな発声区切りを無意識に入れる傾向にある。
認識辞書に認識語彙を登録する際には、発声途中に短い無音や無意味な発音が挿入されることを想定していないため、ユーザの発声を認識辞書に登録された認識語彙として認識することができず、音声コマンドの入力が円滑に行えないという問題がある。
また、認識辞書に登録された語彙をユーザが完全に記憶することは困難であり、部分的であってもユーザが誤った発声を行うと、認識に失敗するという問題もある。
たとえば、「自宅へ帰る」という言葉を音声コマンドとして認識辞書に登録している場合、ユーザが「自宅に帰る」と発声すると、認識辞書に存在する認識語彙として認識されずに認識失敗となる。このような音声認識装置の構成は、ユーザが音声コマンドを入力する場合には、認識辞書に登録されている認識語彙と完全一致するように発声する必要があり、ユーザの利便性に欠けるという問題がある。
ユーザの発声の途中に無音や無意味な発音が挿入されることへの対応としては、予め決められた認識語彙の想定される位置に、無音や無意味な音を挿入した認識語彙を作成して認識辞書に登録しておくことが考えられる。
また、予め決められた認識語彙と言い誤り易い語彙を認識辞書に追加しておくことで、認識辞書中の認識語彙との完全一致しなければ認識失敗となる不便を解消できる。
しかしながら、音声認識装置の認識辞書に認識語彙を追加することは、音声認識に精通しない一般のユーザにとっては困難である。したがって、自分の発声に無音や無意味な音が入ることを認識したユーザが、認識辞書の認識語彙に無音や無意味な音が挿入された語彙を新たなに追加することは困難である。同様に、予め登録されている音声コマンドと誤り易い語彙を見出したユーザが、認識辞書の認識語彙として新たな語彙を追加することは困難である。
また、不必要な位置に無音や無意味な音を挿入した語彙を認識語彙として登録すると、認識辞書に追加される認識語彙が無駄に増えることとなり、音声認識装置としての認識性能を劣化させることになる。さらに、音声認識に精通する者が認識語彙を追加する場合であっても、認識辞書に予め登録されている全ての認識語彙に対応して新たな認識語彙を追加することは膨大な時間を必要とする。
ユーザが1つの音声コマンドを発声する際に、文節境界などで間を空けて発声しても、正しく認識できるような音声認識装置が提案されている(特許文献1参照)。
特許文献1の音声認識装置は、たとえば、「自宅へ帰る」という音声コマンドに対して、「自宅へ」と「帰る」との間に無音を挟んで発声することで音声区間が2分割されることを想定して、「自宅へ」と「帰る」の2つの語彙を認識語彙として認識辞書に登録しておくことを提案している。
特許文献1の音声認識装置は、このような新たな語彙を追加する方法として、登録されている音声コマンドに対して形態素解析などを行って音声コマンドを所定の単位に分割し、分割された各語彙を認識語彙として認識辞書に登録する。
音声コマンドが「自宅へ帰る」である場合、特許文献1の音声認識装置は、形態素解析により「自宅へ」、「帰る」の分割された語彙が生成され、これらを認識語彙として認識辞書に登録する。ユーザが発声する「自宅へ」と「帰る」に音声区間が分割されている音声入力があった場合、まず認識語彙として「自宅へ」と「帰る」をそれぞれ認識することとなる。次に、特許文献1の音声認識装置は、認識された「自宅へ」と「帰る」とを結合した「自宅へ帰る」が、認識辞書に存在する認識語彙と一致するか否かを判別する。このようにして、特許文献1の音声認識装置は、認識された部分的な語彙を結合し、元の認識語彙と一致するか否かを判断して、音声入力が複数の音声区間に分割されていてもこれを音声コマンドとして認識することが可能となる。
このような特許文献1の音声認識装置では、ユーザの音声入力中にある程度長い無音区間が存在し、複数の音声区間に分割された場合にのみ有効である。ユーザが「自宅へ帰る」と発声する際に、「自宅へ」と「帰る」との間に、音声認識装置が音声区間の境界として認識できないわずかな無音区間が生じる場合がある。音声認識装置は、このような短い無音区間を音声区間の境界と認識できないことから、「自宅へ」と「帰る」の2つの音声区間に分割することができない。この短い無音を「*」で表示すると、音声認識装置は、ユーザの音声入力を「自宅へ(*)帰る」と認識し、「自宅へ帰る」、「自宅へ」、「帰る」のいずれの認識語彙も認識できないこととなる。
さらに、特許文献1の音声認識装置において、「自宅へ帰る」という音声コマンドに対してユーザの発声入力が「自宅に帰る」という部分的な発声誤りを含んでいる場合には、これを音声コマンドとして認識することができない。音声認識装置は、ユーザが発声した「自宅に帰る」を、認識辞書に登録された「自宅へ帰る」と一致すると見なすことができない。また、音声認識装置は、「自宅に」と「帰る」の間に無音区間を含む分割された2つの語彙に認識できたとしても、「自宅に」という語彙が認識辞書に登録されていないことから、ユーザからの音声入力を音声コマンドとして認識することができない。
特開2003−216179号公報
本発明では、音声認識装置の認識辞書において、ユーザの発声入力に発声区切りや発声誤りが生じ易い認識語彙についても、確実に認識することが可能な音声認識装置及び音声認識方法を提供することを目的とする。
音声認識装置は、認識辞書と、解析部と、派生認識語彙生成部と、音声入力部と、音声検出部と、音声認識部とを備える。
認識辞書は、複数の語彙を認識語彙として記憶する。
解析部は、認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能か否かを判断し、複数の語彙に分割可能な認識語彙を複数の部分認識語彙に分割する。
派生認識語彙生成部は、部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行い、派生認識語彙を生成する。
音声入力部は、音声データの入力を受け付ける。
音声検出部は、音声入力部で受け付けた音声データの音声区間を検出する。
音声認識部は、音声検出部で検出した音声区間内の音声データを認識辞書に記憶された認識語彙と派生認識語彙生成部で生成された派生認識語彙を用いて音声認識処理を行う。
前述したような構成の音声認識装置では、認識辞書に記憶されている認識語彙に対して、品詞や文節などの所定単位の部分認識語彙に分解し、必要に応じて、無音などの音素を追加、部分認識語彙を他の語彙に置換、部分認識語彙を削除などの処理を行い、さらにこれらを再結合することにより派生認識語彙を生成するように構成できる。
このような音声認識装置は、認識辞書に記憶されている認識語彙の一部が変更、追加、または削除された認識語彙を自動的に派生することにより、音声認識性能を向上させることが可能となる。また、音声認識部における認識失敗を少なくしてユーザの利便性を図ることが可能となる。
第1実施形態の機能ブロックの一例である。 音声データの一例を示す波形図である。 派生認識語彙生成テーブルの一例の説明図である。 音声認識処理の一例のフローチャートである。 派生認識語彙の生成処理の一例のフローチャートである。 第2実施形態の機能ブロック図の一例である。 第3実施形態の機能ブロック図の一例である。 第4実施形態の機能ブロック図の一例である。 第5実施形態の機能ブロック図の一例である。 派生認識語彙生成部の1実施例の機能ブロック図である。 派生認識語彙生成テーブルの一例を示す説明図である。 派生認識語彙生成部の他の実施例の機能ブロック図の一例である。 派生認識語彙生成部のさらに他の実施例の機能ブロック図の一例である。
本発明の実施形態を図面に基づいて説明する。
〈第1実施形態〉
図1は、第1実施形態に係る音声認識装置の機能ブロック図である。
図1において、音声認識装置100は、認識辞書101、解析部102、派生認識語彙生成部103、音声入力部104、音声検出部105、音声認識部106を備えている。
認識辞書101は、音声認識に必要となる認識語彙を予め登録しておくものである。たとえば、この音声認識装置100が組み込まれる音声対話システムにおいてユーザの音声入力を音声コマンドとして受け付ける際に、この音声コマンドに対応する語彙を認識語彙として認識辞書101に記憶する。
解析部102は、認識辞書101に記憶された認識語彙を所定の言語処理手法を用いて所定の単位に分割するものである。ここで、所定の単位とは、たとえば、認識語彙に含まれる文節または品詞などである。解析部102は、認識辞書101に記憶されている認識語彙のうち、複数の品詞または文節に分割可能な認識語彙を、分割可能な品詞または文節に対応する部分認識語彙に分割する。
解析部102は、文法のルール、品詞の情報付き単語リストなどを元に、認識語彙を形態素解析の処理を行い、認識語彙を品詞、文節などの所定単位に分割するように構成できる。解析部102は、形態素解析とは異なる他の言語処理解析により、認識語彙を所定の単位の語彙に分割するように構成してもよい。
派生認識語彙生成部103は、解析部102において分割された部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行って派生認識語彙を生成する。
音声入力部104は、音声データの入力を受け付けるものであって、マイクなどの集音機器で収録した音声データやwavファイル形式などのデータから復元した音声データの入力を受け付ける。
音声検出部105は、音声入力部104で受け付けた音声データの音声区間を検出する。音声検出部105は、たとえば、音声データのパワー値の変化を監視し、所定の閾値未満のパワー値が所定時間以上継続する区間を無音区間とみなして、この無音区間の間を音声区間と判定するように構成できる。
音声認識部106は、音声検出部105で検出した音声区間内の音声データを、認識辞書101に記憶された認識語彙と派生認識語彙生成部103で生成された派生認識語彙を用いて音声認識処理を行う。
音声認識部106における音声認識方法としては、予め登録した音声コマンドを音声認識するコマンド認識、ユーザ発声の中から予め登録した語彙のみを音声認識して抽出するワードスポッティング、ユーザ発声の全てを認識するディクテーションのいずれを採用することもできる。
《派生認識語彙の具体例》
図2は、ユーザが発声した「ファイルを開く」の音声データの波形図である。
また、図3は、認識辞書101に記憶されている認識語彙に対して派生認識語彙生成部103により生成された派生認識語彙の例を示す派生認識語彙生成テーブルの説明図である。
音声認識装置100を備える音声対話装置において、「ファイルを開く」という音声コマンドの入力を受け付ける構成である場合を考察する。この場合、音声認識装置100の認識辞書101には、「ファイルを開く」という認識語彙が予め記憶されている。
このユーザが発声した音声データでは、「ファイルを」という語彙を含む音声区間と、「開く」という語彙を含む音声区間との間に、短い無音区間が挿入されている。これは、ユーザの発声の癖によるものであり、無意識の間に「ファイルを」と「開く」という文節の間に短い無音が入ったものと考えられる。
このようなユーザにより短い無音区間が挿入されることが想定される認識語彙に対して、派生認識語彙生成部103は、解析部102で分割された部分認識語彙の間に短い無音の音素を追加した「ファイルを(*)開く」という認識語彙を生成する。ここで、「(*)」は、音声検出部105で「無音」として検出されない程度の短い無音に対応する音素とする。このことにより、図3の第1行301に示すように、派生認識語彙生成部103は、「ファイルを開く」という認識語彙に対応して、短い無音(*)を部分認識語彙の間に追加した「ファイルを(*)開く」という派生認識語彙を生成する。
音声認識装置100を備える音声対話装置において、「自宅へ帰る」という音声コマンドの入力を受け付ける構成である場合、音声認識装置100の認識辞書101には、「自宅へ帰る」という認識語彙が予め記憶されている。
このように認識辞書101に「自宅へ帰る」という認識語彙だけが登録されており、ユーザが誤って「自宅に帰る」と発声した場合には、音声認識部106は音声認識することができない。ユーザが「自宅に帰る」と発声した場合と、ユーザが「自宅へ帰る」と発声した場合とにおいて、音声認識部106が同等の認識結果を得ることができれば、ユーザの利便性を図ることができる。
まず、解析部102では、「自宅へ帰る」という認識語彙を形態素解析することで、「自宅へ」と「帰る」という部分認識語彙に分解する。
派生認識語彙生成部103は、解析部102で分割された「自宅へ」という部分認識語彙に対して、格助詞「へ」が「に」に変更された「自宅に」という語彙に置換する処理を行う。派生認識語彙生成部103は、置換された語彙「自宅に」と、残りの「帰る」という部分認識語彙とを再結合して、「自宅に帰る」という派生認識語彙を生成する。このことにより、図3の第2行302に示すように、派生認識語彙生成部103は、「自宅へ帰る」という認識語彙に対応して、一部を「自宅に」という語彙に置換した「自宅に帰る」という派生認識語彙を生成する。
音声認識装置100を備える音声対話装置において、「地図を表示する」という音声コマンドの入力を受け付ける構成である場合、音声認識装置100の認識辞書101には、「地図を表示する」という認識語彙が予め記憶されている。
このように認識辞書101に「地図を表示する」という認識語彙だけが登録されており、ユーザが「地図を表示」と省略して発声した場合には、音声認識部106は音声認識することができない。ユーザが「地図を表示」と発声した場合と、ユーザが「地図を表示する」と発声した場合とにおいて、音声認識部106が同等の認識結果を得ることができれば、ユーザの利便性を図ることができる。
まず、解析部102では、「地図を表示する」という認識語彙を形態素解析することで、「地図を」と「表示する」という部分認識語彙に分解する。この時、解析部102では、部分認識語彙に含まれる品詞の解析も行い、たとえば、「表示する」が、サ行変格活用の名詞(以下、サ変名詞と称す)+サ行変格活用の動詞(以下、サ変動詞と称す)(終止形)であることを検出する。
派生認識語彙生成部103は、解析部102で分割された「表示する」という部分認識語彙がサ変名詞+サ変動詞であることに基づいて、サ変動詞を削除する処理を行う。派生認識語彙生成部103は、サ変動詞が削除された部分認識語彙「表示」と、残りの「地図を」という部分認識語彙とを再結合して、「地図を表示」という派生認識語彙を生成する。このことにより、図3の第3行303に示すように、派生認識語彙生成部103は、「地図を表示する」という認識語彙に対応して、「する」という語彙の一部を削除した「地図を表示」という派生認識語彙を生成する。ただし、「地図を表示しない」などの否定形のコマンドがある場合は、「しない」の部分の削除は行わない。
《音声認識装置の処理概要》
図4は、音声認識装置100の処理概要の一例を示すフローチャートである。
ステップS401において、解析部102は、入力された音声の中に含まれている語彙で、認識辞書101に記憶されている認識語彙に対して形態素解析などの言語解析処理を実行し、文節または品詞などの所定単位の語彙に分割可能なものを部分認識語彙に分割する。
ステップS402において、派生認識語彙生成部103は、部分認識語彙に対して所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行い、派生認識語彙を生成する。
ステップS403において、音声入力部104は、入力される音声データを受け付ける。前述したように、音声入力部104は、マイクなどの集音機器から入力されるユーザの音声データまたはwav形式などの音声データファイルを音声入力として受け付ける。wav形式などの音声データファイルを音声入力として受け付ける場合は、wav形式の復元処理を行ってから音声入力する。
ステップS404において、音声検出部105は、音声入力部104で受け付けた音声データの音声区間を検出する。前述したように、音声検出部105は、音声データのパワー値の変化を監視し、所定の閾値未満のパワー値が所定時間以上継続する区間を無音区間とみなして、この無音区間の間を音声区間として切り出す。
ステップS405において、音声認識部106は、音声検出部105で検出した音声区間内の音声データを、認識辞書101に記憶された認識語彙と派生認識語彙生成部103で生成された派生認識語彙を用いて音声認識処理を行う。
ステップS406において、音声認識部106は、音声認識処理を行った結果を出力する。
《派生認識語彙の生成》
図5は、派生認識語彙生成部103における派生認識語彙生成処理の一例を示すフローチャートである。
派生認識語彙生成部103は、認識辞書101に記憶されている認識語彙に対して、自動的に派生認識語彙を生成するものである。派生認識語彙生成部103は、前述したように、部分認識語彙に対して、所定音素の追加(以下、追加処理と称す)、他の語彙との置換(以下、置換処理と称す)、該当する部分認識語彙の削除(以下、削除処理と称す)およびこれらの再結合を行って派生認識語彙を生成する。派生認識語彙生成部103は、部分認識語彙に対する追加処理、置換処理、削除処理の各処理を複合的に含んだ派生認識語彙を生成することが好ましい。この場合、追加処理、置換処理、削除処理の各処理の処理順により、派生認識語彙が異なることから、派生認識語彙生成部103は、追加処理、置換処理、削除処理の各処理が処理順を含めた組み合わせが網羅するように処理を実行する。
ステップS500において、派生認識語彙生成部103は、解析部102によって部分認識語彙に分割された認識語彙を読み込む。
派生認識語彙生成部103は、部分認識語彙に分割された認識語彙に対して、ステップS501、ステップS502、ステップS503に分岐する。ステップS501、S502、S503では、派生認識語彙生成部103は、それぞれ追加処理、置換処理、削除処理を行う。
派生認識語彙生成部103は、ステップS501からステップS504とS506に分岐しそれぞれの処理を実行する。
ステップS504及びステップS505を経由する経路では、派生認識語彙生成部103は、ステップS504において削除処理を実行し、この後、ステップS505において置換処理を実行する。
ステップS506及びステップS507を経由する経路では、派生認識語彙生成部103は、ステップS506において置換処理を実行し、ステップS507において削除処理を実行する。
ステップS508及びステップS509を経由する経路では、派生認識語彙生成部103は、ステップS508において追加処理を実行し、ステップS509において置換処理を実行する。
ステップS510及びステップS511を経由する経路では、派生認識語彙生成部103は、ステップS510において置換処理を実行し、ステップS511において追加処理を実行する。
ステップS512及びステップS513を経由する経路では、派生認識語彙生成部103は、ステップS512において追加処理を実行し、ステップS513において削除処理を実行する。
ステップS514及びステップS515を経由する経路では、派生認識語彙生成部103は、ステップS514において削除処理を実行し、ステップS513において追加処理を実行する。
ステップS516において、派生認識語彙生成部103は、ステップS501〜S515のそれぞれにおいて追加処理、置換処理、削除処理及びこれらの組み合わせ処理が実行された部分認識語彙をそれぞれ再結合して、派生認識語彙を生成する。
前述した各ステップにおいて処理される削除処理、置換処理、追加処理は、それぞれ、入力される語彙に基づいて適切な処理を実行するものであって、同じ名称の処理であっても同一の処理を行うとは限らない。たとえば、追加処理は、部分認識語彙に短い無音を追加する場合、サ変名詞にサ変動詞を追加する場合などのように、入力される語彙により異なる処理を実行する場合がある。
解析部102は、前述したように、形態素解析などの技術を用いて、認識辞書101に記憶されている認識語彙を所定単位の部分認識語彙に分割する。たとえば、認識辞書101に「地図を表示する」という認識語彙が存在し、解析部102が「文節」を所定単位として分割する場合を考察する。この場合、解析部102は以下のように認識語彙を分割する。
「地図を表示する」→〔地図/を〕〔表示/する〕・・・(1-1)
ここで、”〔〕”は分割単位であり、”/”は品詞境界を意味するものとする。通常、形態素解析では、文節境界だけではなく、更に細かい品詞単位に分割した情報も得ることができることから、部分認識語彙の情報として文節境界及び品詞境界の情報を含めた構成とすることが好ましい。したがって、この例では、分割単位は文節境界及び品詞境界を示すものとする。ただし、1単語の名詞が認識語彙となっているような場合には、解析部102はこの認識語彙を分割しない。
図5のフローチャートで示すように、派生認識語彙生成部103は、解析部102によって部分認識語彙に分割された認識語彙に対して、追加処理、置換処理、削除処理の各処理順を含む15通りの組み合わせに分岐し、各ステップで生成された派生認識語彙を保持する。
たとえば、(1-1)のように部分認識語彙に分割された認識語彙は、ステップS501の追加処理において部分認識語彙の間に短い無音(*)が追加されて、次のような部分認識語彙の集合となる。
〔地図/を〕〔表示/する〕→〔地図/を/(*)〕〔表示/する〕・・・(1-2)
このような部分認識語語彙の集合は、ステップS504の削除処理及びステップS506の置換処理に送出されるとともに、再結合するためにステップS516に送出される。
ステップS501で追加処理された部分認識語彙の集合(1-2)は、2つの文節「地図を」と「表示する」との間に短い無音(*)を挿入するものである。ユーザが「地図を表示する」という音声コマンドを発声する際に、「地図を」と「表示する」という文節間に、短い間(ポーズ)を入れる場合が多く、派生認識語彙生成部103はこれに対応して、ステップS501で生成された部分認識語彙の集合をステップS5616で再結合して「地図を(*)表示する」という派生認識語彙を生成する。
ステップS504において、派生認識語彙生成部103は、ステップS501で生成された部分認識語彙の集合(1-2)のうち、削除可能な語彙を削除する削除処理を実行する。たとえば、派生認識語彙生成部103が、部分認識語彙中に「サ変名詞+サ変動詞」が含まれると認識した場合に、サ変動詞を削除するように構成することが可能である。ステップS501で生成された部分認識語彙の集合(1-2)には、〔表示/する〕という「サ変名詞+サ変動詞」が含まれている。したがって、派生認識語彙生成部103は、(1-2)の〔表示/する〕からサ変動詞を削除して、以下のような部分認識語彙の集合を生成する。
〔地図/を/(*)〕〔表示/する〕→〔地図/を/(*)〕〔表示〕・・・(1-3)
なお、削除処理における削除ルールについては予め定義しておくことが好ましい。
ステップS505において、派生認識語彙生成部103は、ステップS504で生成された部分認識語彙の集合(1-3)のうち、他の語彙に置き換え可能な語彙について、置換処理を実行する。たとえば、部分認識語彙の集合(1-3)には、格助詞「を」を含む〔地図/を/(*)〕という部分認識語彙が含まれている。この場合の部分認識語彙〔地図/を/(*)〕は、同等の格助詞「の」を含む〔地図/の/(*)〕と置換することが可能である。したがって、派生認識語彙生成部103は、部分認識語彙(1-3)の一部を置換して以下の部分認識語彙の集合を生成する。
〔地図/を/(*)〕〔表示〕→〔地図/の/(*)〕〔表示〕・・・(1-4)
置換処理の方法は、音声認識技術のディクテーション分野で広く用いられている「Nグラム言語モデル」を利用することができる。
派生認識語彙生成部103は、ステップS504で生成した部分認識語彙の集合(1-3)及びステップS505で生成した部分認識語彙の集合(1-4)を、ステップS516において再結合して派生認識語彙を生成する。
ステップS506において、派生認識語彙生成部103は、ステップS501で生成された部分認識語彙の集合(1-2)のうち、他の語彙に置き換え可能な語彙について、置換処理を実行する。ステップ505と同様に、部分認識語彙〔地図/を/(*)〕が、同等の格助詞「の」を含む〔地図/の/(*)〕と置換することが可能である。したがって、派生認識語彙生成部103は以下の部分認識語彙の集合を生成する。
〔地図/を/(*)〕〔表示/する〕→〔地図/の/(*)〕〔表示/する〕・・・(1-5)
ステップS507において、派生認識語彙生成部103は、ステップS506で生成された部分認識語彙の集合(1-5)のうち、削除可能な語彙を削除する削除処理を実行する。ここでは、ステップS504と同様に、部分認識語彙中に「サ変名詞+サ変動詞」が含まれることから、派生認識語彙生成部103は、(1-5)の〔表示/する〕からサ変動詞を削除して、以下のような部分認識語彙の集合を生成する。
〔地図/の/(*)〕〔表示/する〕→〔地図/の/(*)〕〔表示〕・・・(1-6)
派生認識語彙生成部103は、ステップS506で生成した部分認識語彙の集合(1-5)及びステップS507で生成した部分認識語彙の集合(1-6)を、ステップS516において再結合して派生認識語彙を生成する。ここで、部分認識語彙の集合(1-5)を再結合すると、「地図の(*)表示する」という文法的な誤りを含む派生認識語彙となる。派生認識語彙生成部103は、このような文法的誤りを含む派生認識語彙を採用しないように構成することも可能である。また、派生認識語彙生成部103が、各ステップにおいて部分認識語彙の集合を生成する際に、生成された部分認識語彙を再結合した派生認識語彙に文法的誤りが含まれると判断した場合に、次のステップに進まないように構成することも可能である。
また、ステップS502において、派生認識語彙生成部103は、部分認識語彙の集合(1-1)に対して削除可能な語彙を削除する削除処理を実行する。部分認識語彙の集合(1-1)には、「サ変名詞+サ変動詞」が含まれていることから、派生認識語彙生成部103は、ステップS504と同様にサ変動詞を削除する。したがって、派生認識語彙生成部103は、以下のような部分認識語彙の集合を生成する。
〔地図/を〕〔表示/する〕→〔地図/を〕〔表示〕・・・(1-7)
ステップS508において、派生認識語彙生成部103は、ステップS502で生成された部分認識語彙の集合(1-7)に対して、追加可能な音素の追加処理を実行する。この場合、部分認識語彙の集合(1-7)が文節の集合となっており、派生認識語彙生成部103はこれら文節の間に短い無音(*)を追加するように構成できる。
〔地図/を〕〔表示〕→〔地図/を/(*)〕〔表示〕・・・(1-8)
ステップS509において、派生認識語彙生成部103は、ステップ508で生成された部分認識語彙の集合(1-8)に対して、他の語彙に置換可能な語彙の置換処理を実行する。ステップS505と同様に、部分認識語彙〔地図/を/(*)〕が、同等の格助詞「の」を含む〔地図/の/(*)〕と置換することが可能である。したがって、派生認識語彙生成部103は以下の部分認識語彙の集合を生成する。
〔地図/を/(*)〕〔表示〕→〔地図/の/(*)〕〔表示〕・・・(1-9)
ステップS510において、派生認識語彙生成部103は、ステップ502で生成された部分認識語彙の集合(1-7)に対して、他の語彙に置換可能な語彙の置換処理を実行する。ステップS505と同様に、部分認識語彙〔地図/を〕が、同等の格助詞「の」を含む〔地図/の〕と置換することが可能である。したがって、派生認識語彙生成部103は以下の部分認識語彙の集合を生成する。
〔地図/を〕〔表示〕→〔地図/の〕〔表示〕・・・(1-10)
ステップS511において、派生認識語彙生成部103は、ステップS510で生成された部分認識語彙の集合(1-10)に対して、追加可能な音素の追加処理を実行する。この場合、部分認識語彙の集合(1-10)が文節の集合となっており、派生認識語彙生成部103はこれら文節の間に短い無音(*)を追加するように構成できる。
〔地図/の〕〔表示〕→〔地図/の/(*)〕〔表示〕・・・(1-11)
また、ステップS503において、派生認識語彙生成部103は、部分認識語彙の集合(1-1)に対して、他の語彙に置換可能な語彙の置換処理を実行する。このステップS503では、派生認識語彙生成部103は、部分認識語彙中に含まれる「サ変名詞+サ変動詞」のサ変動詞を活用変化させて接続助詞を追加した語彙に置換するように構成する。部分認識語彙の集合(1-1)が、〔地図/を〕〔表示/する〕であることから、派生認識語彙生成部103は、〔表示/する〕を活用変化させた〔表示/して〕に置換し、次のような部分認識語彙の集合を生成する。
〔地図/を〕〔表示/する〕→〔地図/を〕〔表示/して〕・・・(1-12)
派生認識語彙生成部103は、サ変動詞の活用形として命令形を用いて〔地図/を〕〔表示/せよ〕という部分認識語彙の集合を生成するように構成することも可能である。この場合、派生認識語彙生成部103は、サ変動詞の活用変化を対応付けたテーブルを用意しておくことが好ましく、たとえば、「する−して」、「する−せよ」、「する−しろ」などのテーブルを用意しておくことができる。また、派生認識語彙生成部103が、サ変動詞の活用形に関して置換処理を行う場合、Nグラム言語モデルを用いることも可能である。
ステップS512において、派生認識語彙生成部103は、ステップS503で生成された部分認識語彙の集合(1-12)に対して、追加可能な音素の追加処理を実行する。派生認識語彙生成部103は文節の間に短い無音(*)を追加するように構成できる。
〔地図/を〕〔表示/して〕→〔地図/を/(*)〕〔表示/して〕・・・(1-13)
ステップS513において、派生認識語彙生成部103は、ステップS512で生成された部分認識語彙の集合(1-13)に対して、削除可能な語彙の削除処理を実行する。派生認識語彙生成部103は、〔表示/して〕に「サ変名詞+サ変動詞」が含まれることから、サ変動詞(ここでは接続助詞「て」を含む)を削除する。
〔地図/を/(*)〕〔表示/して〕→〔地図/を/(*)〕〔表示〕・・・(1-14)
ステップS514において、派生認識語彙生成部103は、ステップS503で生成された部分認識語彙の集合(1-12)に対して、削除可能な語彙の削除処理を実行する。派生認識語彙生成部103は、〔表示/して〕に「サ変名詞+サ変動詞」が含まれることから、サ変動詞(ここでは接続助詞「て」を含む)を削除する。
〔地図/を〕〔表示/して〕→〔地図/を〕〔表示〕・・・(1-15)
ステップS515において、派生認識語彙生成部103は、ステップS514で生成された部分認識語彙の集合(1-15)に対して、削除可能な語彙の削除処理を実行する。派生認識語彙生成部103は、〔表示/して〕に「サ変名詞+サ変動詞」が含まれることから、サ変動詞(ここでは接続助詞「て」を含む)を削除する。
〔地図/を〕〔表示〕→〔地図/を/(*)〕〔表示〕・・・(1-16)
派生認識語彙生成部103は、部分認識語彙の集合(1-2)〜(1-16)に基づいて派生認識語彙を再結合して生成するものであるが、処理順により異なる場合が生じることから、その処理順を考慮した組み合わせを網羅的に試みることが好ましい。ただし、部分認識語彙の集合(1-2)〜(1-16)に基づいて生成される派生認識語彙には重複するものが多数出現する可能性があることから、派生認識語彙生成部103は重複する派生認識語彙を排除することが好ましい。
以上のような構成により、認識辞書101に記憶されている認識語彙の他に、派生認識語彙生成部103が派生認識語彙を生成する。音声認識部106は、認識辞書101に記憶されている認識語彙と、派生認識語彙生成部103で生成された派生認識語彙を用いて、音声入力部104から入力された音声データの音声認識を行う。
前述したような音声認識装置100では、ユーザが音声コマンドを発声する際に、発声区切りや発声誤りが生じやすい位置を自動的に検出し、これに基づいて派生認識語彙を生成している。したがって、ユーザが音声コマンドを入力する際に、わずかな発声区切りが生じる場合や部分的な発声誤りがあった場合にも、ユーザが意図する音声コマンドの受け付けを行うことができる。
〈第2実施形態〉
第1実施形態における音声認識装置100では、音声認識部106が、認識辞書101に記憶されている認識語彙と、派生認識語彙生成部103で生成された派生認識語彙を用いて音声認識処理を行っている。この音声認識装置100は、派生認識語彙生成部103で生成された派生認識語彙を、認識辞書101に記憶するものではないことから、認識辞書101の更新を行う必要がない。
音声コマンドを認識する音声認識装置では、音声コマンドである認識語彙が少ない場合には、前述したような派生認識語彙を認識辞書101に記憶しない構成とすることも可能である。しかしながら、ディクテーション認識のような大量の語彙を連続認識するような場合、認識辞書101に格納された膨大な認識語彙を用いて音声認識を行うことから、音声認識時に派生認識語彙を逐次生成するような方法では、リアルタイムでの処理が困難になる。
第2実施形態の音声認識装置では、認識辞書101に予め記憶されている認識語彙から、派生認識語彙を生成してその派生認識語彙を認識辞書101に登録しておくように構成することを提案する。
図6は、第2実施形態に係る音声認識装置の機能ブロック図の一例である。
第1実施形態と共通する構成には同一の符号を付して、その詳細な説明は省略する。
この第2実施形態における音声認識装置100は、認識辞書101、解析部102、派生認識語彙生成部103、音声入力部104、音声検出部105、音声認識部106、登録部601を備えている。
第1実施形態と同様に、音声認識装置100は、認識辞書101に記憶されている認識語彙を解析部102により所定単位の部分認識語彙に分割し、派生認識語彙生成部103により追加処理、置換処理、削除処理を全ての組み合わせについて処理し再結合して派生認識語彙を生成する。
登録部601は、派生認識語彙生成部103において生成された派生認識語彙を認識辞書101に記憶させる。登録部601は、派生認識語彙生成部103において生成された派生認識語彙に重複するものが存在する場合には、1つだけを残して重複登録を排除するように構成できる。また、登録部601は、派生認識語彙生成部103において生成された派生認識語彙に文法的な誤りを含むものが存在する場合に、これを排除するように構成することも可能である。派生認識語彙生成部103において、重複する派生認識語彙の排除、文法的誤りを含む派生認識語彙の排除の処理がなされている場合には、登録部601において実行する必要はない。
また、派生認識語彙生成部103において生成された派生認識語彙のうち、認識辞書101に既に記憶されているものが存在する場合、登録部601はこれを認識辞書101に記憶させないようにすることができる。
音声認識部106は、音声入力部104から入力され、音声検出部105により音声区間に切り出された音声データに対して、認識辞書101に記憶されている認識語彙及び派生認識語彙を用いて音声認識処理を実行する。
このとき、音声認識部106は、認識辞書101に記憶されている派生認識語彙を予め認識辞書に記憶されている認識語彙と同様に扱うことができ、必要な認識語彙と派生認識語彙の双方を用いて音声認識を行うことができる。
このようにした第2実施形態に係る音声認識装置100では、認識辞書101に記憶されている認識語彙に基づいて逐次派生認識語彙を生成することなく、予め認識辞書101に記憶された認識語彙と派生認識語彙とを用いて迅速な音声認識処理を可能にする。
〈第3実施形態〉
第2実施形態に係る音声認識装置100において、認識辞書101に記憶された派生認識語彙の登録・削除を音声認識部106における認識結果の履歴に基づいて登録部601が登録・削除するように構成することができる。また、登録部601が、派生認識語彙だけでなく、認識辞書101に予め登録されている認識語彙について、認識結果の履歴に基づいて削除するように構成できる。
図7は、第2実施形態に係る音声認識装置100の機能ブロック図である。
第2実施形態と共通する構成には同一の符号を付して、その詳細な説明は省略する。
この第3実施形態における音声認識装置100は、認識辞書101、解析部102、派生認識語彙生成部103、音声入力部104、音声検出部105、音声認識部106、登録部601、履歴データベース701を備えている。
第2実施形態と同様に、音声認識装置100は、認識辞書101に記憶されている認識語彙を解析部102により所定単位の部分認識語彙に分割し、派生認識語彙生成部103により追加処理、置換処理、削除処理を全ての組み合わせについて処理し再結合して派生認識語彙を生成する。
派生認識語彙生成部103により生成された派生認識語彙は、登録部601により認識辞書101に記憶される。
音声認識部106は、音声入力部104から入力され、音声検出部105により音声区間に切り出された音声データに対して、認識辞書101に記憶されている認識語彙及び派生認識語彙を用いて音声認識処理を実行する。
履歴データベース701は、認識辞書101に記憶されている認識語彙及び派生認識語彙について、音声認識部106における認識結果の履歴情報を格納する。履歴データベース701に格納される認識結果の履歴情報は、たとえば、認識正解率、信頼平均値などを挙げることができる。
登録部601は、履歴データベース701に格納されている認識結果の履歴情報に基づいて、派生認識語彙生成部103が生成した派生認識語彙の登録・削除の有無、予め認識辞書101に登録されている認識語彙の削除の有無を判定し、判定結果に基づいて認識辞書101を更新する。
音声認識部106における音声認識処理は、入力された音声データの音響的特徴量を、多数の音声データの音響的特徴量をデータベース化した音響モデルと照合し、入力された音声データの語彙を推定して、認識辞書101に記憶された認識語彙または派生認識語彙との一致度合いを数値化する。音声認識部106は、この数値化された一致度合いである信頼度が所定の閾値を超えた場合に認識が正解であり、超えない場合には認識が不正解であると判定する。これに基づいて、音声認識部106は、以下の式で認識正解率を算出し、算出した認識正解率を履歴データベース701に格納する。
(認識正解率)=(認識正解数)/(認識正解数+認識不正解数)
ここで、認識正解数は、過去の音声認識処理において、対象の認識語彙または派生認識語彙の信頼度が所定の閾値を超えることにより、音声認識部106が、認識結果が正解であると判定した総回数である。また、認識不正解数は、過去の音声認識処理において、対象の認識語彙または派生認識語彙の信頼度が所定の閾値を超えないことにより音声認識部106が認識不正解と判定した総回数である。
登録部601は、対象の認識語彙または派生認識語彙の認識正解率に基づいて、派生認識語彙の登録・削除を判断するように構成してもよい。たとえば、登録部601は、対象の認識語彙の認識正解率が所定の閾値を超えていると判断した場合に、認識辞書101に記憶されている認識語彙をユーザが正確に発声できている可能性が高いと判断し、該当する認識語彙に基づいて派生認識語彙生成部103で生成された派生認識語彙を認識辞書101に登録しないようにする。該当する派生認識語彙が認識辞書101に既に記憶されている場合には、登録部601は、当該派生認識語彙を認識辞書101から削除するように構成できる。
登録部601は、対象の認識語彙の認識正解率が所定の閾値を超えていないと判断した場合に、ユーザが認識辞書101に記憶されている認識語彙と異なる発声をしている可能性が高いと判断し、該当する認識語彙に基づいて派生認識語彙生成部103で生成された派生認識語彙を認識辞書101に登録する。
さらに、登録部601は、認識辞書101に既に記憶されている派生認識語彙の認識正解率が所定の閾値を超えた場合に、対象の派生認識語彙を残す。また、登録部601は、認識辞書101に既に記憶されている派生認識語彙の認識正解率が所定の閾値を超えていない場合に、対象の派生認識語彙を認識辞書101から削除するように構成できる。
登録部601は、対象の認識語彙の信頼度平均値に基づいてこの認識語彙に基づいて生成された派生認識語彙の登録の可否を決定するように構成できる。ここで、信頼度平均値とは、対象の認識語彙の認識正解時と認識不正解時の信頼度の平均値である。
登録部601は、たとえば、対象の認識語彙の信頼度平均値が所定の閾値を超えたと判断した場合には、派生認識語彙生成部103で生成された派生認識語彙を認識辞書101に記憶しないように構成できる。また、登録部601は、対象の認識語彙の信頼度平均値が所定の閾値を超えていないと判断した場合には、派生認識語彙生成部103で生成された派生認識語彙を認識辞書101に記憶しないように構成できる。
さらに、登録部601は、認識辞書101に登録済みの派生認識語彙の信頼度平均値が所定の閾値を超えたと判断した場合に、派生認識語彙を認識辞書101に残すように構成できる。また、登録部601は、認識辞書101に登録済みの派生認識語彙の信頼度平均値が所定の閾値を超えていないと判断した場合に、派生認識語彙を認識辞書101から削除するように構成できる。
第3実施形態に係る音声認識装置では、認識辞書101に既に記憶されている認識語彙の認識履歴に基づいて、良好な認識結果が得られない認識語彙については派生認識語彙を認識辞書101に追加することで、認識語彙のバリエーションを増やすことができる。したがって、予め認識辞書101に記憶されている認識語彙と異なる発声区切りや部分的な発声誤りを含むユーザの発声を認識することが可能となる。
また、一般的に、音声認識技術において、認識語彙が増えると認識率が低下する傾向にあり、認識辞書101に記憶される認識語彙を最小限にすることで認識率を上げることができる。したがって、認識辞書101に予め記憶された認識語彙の認識履歴が、認識結果が良好な履歴である場合には、対応する派生認識語彙を認識辞書101に登録しないようにする。このことにより、認識辞書101に記憶される無用な認識語彙の増加を抑えることができ、音声認識部106における音声認識処理の精度が劣化することを防止できる。
〈第4実施形態〉
専門用語が用いられる現場や認識辞書に予め記憶されていない特殊な用語を音声認識させたい場合には、そのような特殊な用語を用いるユーザが直接認識辞書に認識語彙として記憶させることができれば便利である。一般的な用語であっても、予め認識辞書に記憶されていない場合には、ユーザがこのような用語を認識語彙として認識辞書に登録することができれば便利である。ユーザが認識語彙を入力可能な音声認識装置の例を第4実施形態として示す。
図8は、第4実施形態に係る音声認識装置の機能ブロック図である。
第1〜3実施形態と共通する構成には同一の符号を付して、その詳細な説明は省略する。
この第4実施形態における音声認識装置100は、認識辞書101、解析部102、派生認識語彙生成部103、音声入力部104、音声検出部105、音声認識部106、登録部601、語彙入力部801を備えている。
第1〜3実施形態と同様に、音声認識装置100は、認識辞書101に記憶されている認識語彙を解析部102により所定単位の部分認識語彙に分割し、派生認識語彙生成部103により追加処理、置換処理、削除処理を全ての組み合わせについて処理し再結合して派生認識語彙を生成する。
派生認識語彙生成部103により生成された派生認識語彙は、登録部601により認識辞書101に記憶される。
音声認識部106は、音声入力部104から入力され、音声検出部105により音声区間に切り出された音声データに対して、認識辞書101に記憶されている認識語彙及び派生認識語彙を用いて音声認識処理を実行する。
語彙入力部801は、キーボード、マウス、その他の入力インターフェイスを用いてユーザが入力する認識語彙を受け付けて、これを認識辞書101に記憶させる。
ユーザが語彙入力部801を介して入力する新たな認識語彙については、音声認識装置100の利用者が追加された新たな認識語彙の通りに発声するとは限らない。特に、認識語彙を認識辞書101に追加するユーザと、音声認識装置100の利用者が異なる場合には、認識語彙を追加するユーザの期待通りに利用者が発声するとは限らない。
したがって、語彙入力部801を介して認識辞書101に新たな認識語彙を追加する場合には、派生認識語彙生成部103においてこの認識語彙に基づく派生認識語彙を生成し、種々のバリエーションにより認識語彙を認識辞書101に記憶しておくように構成することが好ましい。
このように新たに追加された認識語彙に基づく派生認識語彙を用意することは、音声認識処理に精通しない者にとってはかなりの困難を伴うものであり、また、音声認識処理に精通した者であっても手動でこれを行うには相当な時間を要する。
この第4実施形態の音声認識装置では、語彙入力部801で入力された認識語彙を認識辞書101に記憶させるとともに、この認識語彙に基づいて解析部102及び派生認識語彙生成部103を介して派生認識語彙を生成するとともに、登録部601を介して認識辞書101に記憶させるように構成してもよい。
以上の構成により、ユーザは語彙入力部801を介して認識語彙を入力するだけで、音声認識装置100は、その認識語彙の発声バリエーションを考慮した派生認識語彙を自動的に生成して認識辞書101に記憶させる。したがって、音声認識装置100を利用するユーザが、認識辞書101に記憶されている認識語彙と異なる発声をしたとしても、これを認識することが可能となり、特に、発声中にわずかな発声区切りや発声誤りを含む場合であっても、音声認識を可能とする。
〈第5実施形態〉
派生認識語彙生成部103において生成された派生認識語彙を、認識辞書101に記憶させるか否かをユーザに選択させるように構成することで、ユーザによる認識辞書101の整備を簡略化することができる。
図9は、第5実施形態に係る音声認識装置の機能ブロック図である。
第1〜4実施形態と共通する構成には同一の符号を付して、その詳細な説明は省略する。
この第5実施形態における音声認識装置100は、認識辞書101、解析部102、派生認識語彙生成部103、音声入力部104、音声検出部105、音声認識部106、登録部601、語彙入力部801、選択部901を備えている。
第1〜4実施形態と同様に、音声認識装置100は、認識辞書101に記憶されている認識語彙を解析部102により所定単位の部分認識語彙に分割し、派生認識語彙生成部103により追加処理、置換処理、削除処理を全ての組み合わせについて処理し再結合して派生認識語彙を生成する。
派生認識語彙生成部103により生成された派生認識語彙は、登録部601により認識辞書101に記憶される。
音声認識部106は、音声入力部104から入力され、音声検出部105により音声区間に切り出された音声データに対して、認識辞書101に記憶されている認識語彙及び派生認識語彙を用いて音声認識処理を実行する。
語彙入力部801は、キーボード、マウス、その他の入力装置を用いてユーザが入力する認識語彙を受け付けて、これを認識辞書101に記憶させる。
選択部901は、ディスプレイなどの出力装置、キーボード、マウスなどの入力装置などで構成される入出力インターフェイスを備え、たとえば、ディスプレイ上に表示した派生認識語彙を認識辞書101に記憶させるか否かの選択指示をユーザから受け付けることが可能に構成される。
この第5実施形態の音声認識装置は、派生認識語彙生成部103で生成した派生認識語彙のうち、ユーザが必要であると判断するものに限定して、派生認識語彙を認識辞書101に記憶させる。したがって、この音声認識装置は、利用頻度が低いと思われる無用な派生認識語彙を認識辞書101に登録しないようにして、認識辞書101に登録される認識語彙を極力抑制し、認識率を高めることが可能となる。
音声認識に精通しないユーザにとって、派生認識語彙の手動生成は困難であるが、派生認識語彙生成部103により自動的に生成された派生認識語彙のうちから、必要と考えられるものを抽出して認識辞書101に記憶させること、または不要と考えられるものを抽出して排除することは比較的簡単な作業であると考えられる。したがって、第5実施形態による音声認識装置100は、ユーザによる認識辞書101の整備を簡略化することができるとともに、精度良く辞書更新を行うことが可能となる。
〈派生認識語彙生成部の実施例1〉
前述した各実施形態において用いられる派生認識語彙生成部103として、無音を挿入する場合の例について説明する。
図10は、派生認識語彙生成部103の実施例の機能ブロック図である。
派生認識語彙生成部103は、境界検出手段1001、無音挿入手段1002、結合手段1003を備えている。
境界検出手段1001は、解析部102で形態素解析され、文節や品詞単位に分割された認識語彙の境界位置を検出する。認識語彙の境界位置は、文節境界や品詞境界であることが好ましい。特に、音声認識処理において、ユーザが発声する際に無意識に文節境界に短い間(ポーズ)を挿入する場合が多く、文節境界をここでの境界位置とすることが好ましい。
無音挿入手段1002は、境界検出手段1001で検出された境界の前後に位置して、所定単位で分割された部分認識語彙があれば、境界の前に位置する部分認識語彙の末尾に短い無音(*)を挿入する。この短い無音(*)の挿入は、前述の部分認識語彙の集合(1-2)で示した例と同様である。
〔地図/を〕〔表示/する〕→〔地図/を/(*)〕〔表示/する〕
このように、無音挿入手段1002は、文節単位で分割された部分認識語彙〔地図/を〕〔表示/する〕の境界前に位置する部分認識語彙の末尾に無音(*)を挿入している。
結合手段1003は、無音挿入手段1002の出力である所定単位で分割された部分認識語彙を結合し、1つの派生認識語彙を生成する。
〔地図/を/(*)〕〔表示/する〕→〔地図を(*)表示する〕
この実施例における派生認識語彙生成部103は、認識語彙の発声区切りが生じ易い位置を自動的に検出し、発声区切りの位置に短い無音(*)を挿入した語彙を派生認識語彙として生成している。このことにより、ユーザが自然に発声した際に生じるわずかな発声区切りがある音声データについても、音声認識部106による音声認識処理が可能な認識語彙を提供することが可能となる。
〈名詞複合語の派生認識語彙の生成〉
図11は、複数の名詞が結合した名詞複合語に対して派生認識語彙を生成する場合の一例を示す説明図である。この実施例では、図10で示す派生認識語彙生成部103を用いて派生認識語彙を生成することができる。
名詞の複合語が認識語彙である場合、多くのユーザは名詞の境界位置で区切って発声する傾向が強い。したがって、派生認識語彙生成部103が、名詞の境界位置に短い無音(*)を挿入した派生認識語彙を生成するように構成することが好ましい。
図11では、「フリーソフトダウンロードサイト」という認識語彙に対して、品詞単位分割して、派生認識語彙を生成した場合のテーブルを例示している。
この「フリーソフトダウンロードサイト」という認識語彙は、4つの名詞の複合語で構成されており、文節境界は存在しない。しかしながら、この「フリーソフトダウンロードサイト」という認識語彙を品詞単位で分割すると、〔フリー/ソフト/ダウンロード/サイト〕という4単語の名詞で、3つの品詞境界で形成される。
派生認識語彙生成部103の境界検出手段1001は、解析部102から境界情報に基づいて品詞境界を検出する。この場合、境界検出手段1001は、4つの名詞の3つの品詞境界を検出する。
無音挿入手段1002は、境界検出手段1001で検出した名詞の境界位置に短い無音(*)を挿入する。ここでは、無音挿入手段1002は、3つの品詞境界に無音の挿入が有る/無しの全て組み合わせを網羅するように、品詞境界の前に位置する部分認識語彙の末尾に無音を挿入する。
結合手段1003は、無音挿入手段1002で無音が挿入された部分認識語彙を再結合して、派生認識語彙を生成する。前述したように、無音挿入手段1002において、3つの品詞境界に無音の挿入が有る/無しの全ての組み合わせを網羅していることから、結合手段1003は図示したように7種類の派生認識語彙を生成することとなる。
このような派生認識語彙の生成処理は、手動で行うことも可能であるが、音声認識処理に精通しないユーザが実行することは困難であり、音声認識処理に精通したユーザにとっても全ての可能性を網羅した派生認識語彙を生成するためには煩雑な作業を伴い多くの時間を必要とする。
この実施例によれば、名詞複合語の品詞境界を判定し、この品詞境界に無音が挿入される全ての場合を網羅した派生認識語彙を自動的に生成することが可能となる。
〈未知語を含む認識語彙の処理〉
前述した各実施形態において、解析部102が認識語彙に対して形態素解析などの言語解析処理を行う際に、解析を行う辞書に登録されていない語彙を含む場合が想定される。このような場合、解析部102において認識語彙に対する解析処理を行うことができず、未知語として定義された語彙を含む部分認識語彙を検出することとなる。
このような未知語を含む所定単位の部分認識語彙に対して、必要に応じて部分認識語彙の前後に無音を挿入して派生認識語彙を生成するように構成することができる。
図12は、未知語を含む認識語彙の処理のための派生認識語彙生成部の1実施例の機能ブロック図である。
派生認識語彙生成部103は、境界検出手段1001、無音挿入手段1002、結合手段1003、及び未知語検出手段1201を備えている。
境界検出手段1001、無音挿入手段1002、結合手段1003は、図10に示す派生認識語彙生成部103の構成と同様であり、ここでは詳細な説明は省略する。
未知語検出手段1201は、たとえば形態素解析辞書に登録されていない語彙について、解析部102において形態素解析ができずに未知語と定義された語彙を含む所定単位の部分認識語彙を検出する。
無音挿入手段1002は、未知語検出手段1201により未知語を含む部分認識語彙が検出された場合に、必要に応じてその部分認識語彙の前後に無音を挿入する。
結合手段1003は、無音挿入手段1002で無音が挿入された部分認識語彙を再結合して、派生認識語彙を生成する。
認識辞書101に「着メロサイト」という認識語彙が記憶されている場合を考察する。
解析部102が認識語彙を解析する際の形態素辞書には、「サイト」という語彙が存在するものの、「着メロ」という語彙が存在しないとする。
解析部102では、「着メロサイト」という認識語彙を形態素解析した結果、未知語である「着メロ」と既知語である「サイト」とで構成される〔着メロ/サイト〕とする。このとき、「着メルサイト」は、名詞の複合語であり、文節境界がない。
解析部102の解析結果に基づいて、境界検出部1001及び未知語検出手段1201により、「着メロ」と「サイト」との間に品詞境界が設定される。
無音挿入手段1002は、未知語である「着メロ」の品詞境界位置に無音を挿入した部分認識語彙の集合〔着メロ(*)〕〔サイト〕を生成する。
結合手段1003は、無音挿入手段1002で生成された部分認識語彙の集合を結合して、「着メロ(*)サイト」という派生認識語彙を生成する。
この例では、名詞複合語を例示したため文節境界が存在しないが、所定単位を文節境界として、分割された文節中に未知語が含まれる場合には、未知語の前または後ろに続く語彙の品詞が名詞である場合に限って、無音を挿入することが好ましい。
一般的に、形態素解析の分野では、未知語は名詞である確率が高く、一般名詞と同じ扱いをする。たとえば、認識語彙が「着メロの情報」である場合、「着メロの」「情報」という文節単位で分割することができる。この場合、未知語である「着メロ」の直後に無音を挿入すると、「着メロ(*)の」という部分認識語彙を生成することとなる。通常のユーザが発声する際に、このような位置にポーズを置くことは考えにくいので、このような部分認識語彙を用いて生成された派生認識語彙は、不必要なものであると考えられる。このことから、未知語は名詞であると考えて、前後に名詞が続く名詞複合語である場合にのみ限定して、名詞境界に無音を挿入することが好ましい。
この実施例による音声認識装置は、認識語彙に未知語が含まれている場合であっても、認識語彙に発声区切りが生じやすい位置を自動的に検出し、発声区切りの位置に無音を挿入した派生認識語彙を自動的に生成することができる。
〈派生認識語彙生成部の実施例2〉
前述したように、派生認識語彙生成部103では、部分認識語彙に対して、所定音素の追加する追加処理、他の語彙との置換を行う置換処理、該当する部分認識語彙を削除する削除処理の全ての組み合わせを網羅的に行う。派生認識語彙生成部103において追加処理、置換処理、削除処理を実行する機能ブロックを備えた構成に基づいて説明する。
図13は、派生認識語彙生成部103の他の実施例の機能ブロック図である。
派生認識語彙生成部103は、境界検出手段及び品詞検出手段1301、追加手段1302、削除手段1303、置換手段1304、結合手段1003を備えている。
境界検出手段及び品詞検出手段1301のうち境界検出手段は、解析部102で形態素解析されて所定単位の部分認識語彙に分割された認識語彙の境界情報及び品詞情報から部分認識語彙の境界を検出する。境界検出手段が検出する所定単位は、文節単位とすることができ、文節と品詞の境界が検出されて部分認識語彙として、追加手段1302、削除手段1303、置換手段1304に入力される。
また、境界検出手段及び品詞検出手段1301のうち品詞検出手段は、所定単位に分割された部分認識語彙に含まれる品詞情報を検出し、境界検出手段で検出された品詞境界情報とともに、追加手段1302、削除手段1303、置換手段1304に入力する。
部分認識語彙に分割された認識語彙は、追加手段1302→削除手段1303→置換手段1304、追加手段1302→置換手段1304→削除手段1303、削除手段1303→置換手段1304→追加手段1302、削除手段1303→追加手段1302→置換手段1304、置換手段1304→追加手段1302→削除手段1303、置換手段1304→削除手段1303→追加手段1302のそれぞれの経路を経て、追加処理、置換処理、削除処理の全ての組み合わせで実行された15通りの部分認識語彙の集合を生成する。
結合手段1003は、追加手段1302、削除手段1303、置換手段1304から出力される部分認識語彙の集合を用いて、派生認識語彙を生成する。結合手段1003は、生成した派生認識語彙に重複するものがある場合、1つを残してその他を排除する。
置換手段1304における置換処理は、前述したように、品詞を同一品詞の他の語彙に置換する、活用語が含まれる場合に別の活用形に置換するなどの処理がある。
置換手段1304は、置換対象となる語彙の変換テーブルやデータベースを予め用意しておくことができ、このような変換テーブルやデータベースに基づいて、置換処理を行うことができる。たとえば、置換手段1304は、「に(格助詞)→へ(格助詞)」、「へ(格助詞)→に(格助詞)」、「行く(動詞終止形)→行け(動詞命令形)」、「行け(動詞命令形)→行く(動詞終止形)」、「する(サ変動詞終止形)→して(サ変動詞連用形+接続助詞)」、「して(サ変動詞連用形+接続助詞)→する(サ変動詞終止形)」などの置換可能な語彙の変換テーブル、またはデータベースを用意しておくことができる。
なお、置換手段1304は、前述したような単純な変換テーブルやデータベースを用いた場合に、文法的に誤りを含む派生認識語彙を生成するおそれがある。たとえば、認識語彙が「大人になる」であった場合に、置換手段1304が前述したような単純な変換テーブルに基づいて置換処理を実行すると、「大人へなる」という派生認識語彙を生成する可能性がある。このような文法的な誤りを含んだ派生認識語彙を生成することを抑制するためには、音声認識技術のディクテーション分野で広く利用されている「Nグラム言語モデル」を利用することが好ましい。
Nグラム言語モデルは、1つの語彙の次につながる確率の高い語彙を選定することで、その語彙の次に出現する語彙を予測するためのモデルである。品詞単位の語彙を考察するものとして、「大人」と「へ」との2つの語彙があった場合に、Nグラム言語モデルを利用すると、「大人へ」の後に続く語彙として「なる」は非常に低い確率となる。したがって、「大人へなる」との語彙は不適切な接続関係を有する語彙であると判定できる。したがって、派生認識語彙生成部103は、このような「大人へなる」という派生認識語彙を生成しないことが好ましい。派生認識語彙生成部103は、変換テーブルやデータベースを用いた置換処理において生成された語彙に、Nグラム言語モデルを用いて適・不適の判定を行うことができる。また、派生認識語彙生成部103は、前述したような変換テーブルまたはデータベースを利用せずに、Nグラム言語モデルだけを用いて、同一品詞の別の語に置換処理を行うことも可能である。
削除手段1303における削除処理としては、サ変名詞+サ変動詞が含まれる場合にサ変動詞を削除する場合がある。
削除手段1303の削除処理においても、変換テーブルやデータベースを用いた処理が可能であり、Nグラム言語モデルを用いた処理も可能である。
追加手段1304の追加処理としては、文節間の無音の追加、認識語彙の末尾の品詞がサ変名詞の場合サ変動詞を追加する場合がある。
追加手段1303の追加処理においても、変換テーブルやデータベースを用いた処理が可能であり、Nグラム言語モデルを用いた処理も可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の語彙を認識語彙として記憶する認識辞書と、
前記認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能か否かを判断し、複数の語彙に分割可能な認識語彙を複数の部分認識語彙に分割する解析部と、
前記部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行い、派生認識語彙を生成する派生認識語彙生成部と、
音声データの入力を受け付ける音声入力部と、
前記音声入力部で受け付けた音声データの音声区間を検出する音声検出部と、
前記音声検出部で検出した音声区間内の音声データを前記認識辞書に記憶された認識語彙と前記派生認識語彙生成部で生成された派生認識語彙を用いて音声認識処理を行う音声認識部と、
を備える音声認識装置。
(付記2)
前記派生認識語彙生成部で生成された派生認識語彙を前記認識辞書の認識語彙として登録する認識語彙登録部をさらに備える、付記1に記載の音声認識装置。
(付記3)
前記音声認識部における認識結果の履歴を保存する履歴保存部と、前記履歴保存部に保存された認識結果の履歴を更新する履歴追加部とをさらに備え、
前記認識語彙登録部は、前記音声認識部における認識結果の履歴に基づいて、前記派生認識語彙の認識辞書への登録・削除を行う、付記2に記載の音声認識装置。
(付記4)
ユーザからの認識語彙の入力を受け付ける語彙入力部をさらに備え、
前記派生認識語彙生成部は、前記語彙入力部から入力された認識語彙から派生認識語彙を生成する、付記1〜3のいずれかに記載の音声認識装置。
(付記5)
前記派生認識語彙生成部において生成された派生認識語彙を前記認識辞書に登録するか否かの選択指示を受け付ける語彙選択部をさらに備える、付記1〜4のいずれかに記載の音声認識装置。
(付記6)
前記派生認識語彙生成部は、前記認識語彙を部分認識語彙に分割した際の分割位置に無音の音素を追加するとともに前記部分認識語彙を結合して派生認識語彙を生成する、付記1〜5のいずれかに記載の音声認識装置。
(付記7)
前記派生認識語彙生成部は、前記認識語彙から分割された部分認識語彙がそれぞれ名詞である場合、前記部分認識語彙の境界位置に無音の音素を追加するとともに前記部分認識語彙を結合して派生認識語彙を生成する、付記6に記載の音声認識装置。
(付記8)
前記派生認識語彙生成部は、前記部分認識語彙が前記認識辞書に既に登録されている既知語と前記認識辞書に登録されていない未知語とを含む場合に、前記部分認識語彙の境界位置に無音の音素を追加する、付記6に記載の音声認識装置。
(付記9)
前記派生認識語彙生成部は、前記部分認識語彙に含まれる品詞を判定し、判定結果に応じて他の語彙との置換、音素の追加、部分認識語彙の削除を行う、付記1〜7のいずれかに記載の音声認識装置。
(付記10)
前記派生認識語彙生成部は、前記部分認識語彙に含まれる品詞を判定し、判定結果に応じて同一品詞であって対応する他の語彙に置換した派生認識語彙を生成する、付記9に記載の音声認識装置。
(付記11)
前記派生認識語彙生成部は、前記部分認識語彙に含まれる語彙を別の活用形に置換した派生認識語彙を生成する、付記9に記載の音声認識装置。
(付記12)
前記派生認識語彙生成部は、前記部分認識語彙にサ行変格活用の名詞+サ行変格活用の動詞が含まれる場合、前記サ行変格活用の動詞を削除した派生認識語彙を生成する、付記9に記載の音声認識装置。
(付記13)
前記派生認識語彙生成部は、前記部分認識語彙にサ行変格活用の名詞が含まれる場合、前記サ行変格活用の名詞にサ行変格活用の動詞を追加した派生認識語彙を生成する、付記9に記載の音声認識装置。
(付記14)
複数の語彙を認識語彙として記憶する認識辞書を用いて、入力された音声データの音声認識を行う音声認識装置が実行する音声認識方法であって、前記音声認識装置が、
前記認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能な認識語彙について、複数の部分認識語彙に分割し、
前記部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行って派生認識語彙を生成し、
入力された音声データから音声区間を検出し、
前記音声区間内の音声データを前記認識辞書に記憶された認識語彙と前記派生認識語彙を用いて音声認識処理を行う、
音声認識方法。
(付記15)
複数の語彙を認識語彙として記憶する認識辞書を用いて、入力された音声データの音声認識を行う音声認識方法のプログラムであって、
前記認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能な認識語彙について、複数の部分認識語彙に分割し、
前記部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行って派生認識語彙を生成し、
入力された音声データから音声区間を検出し、
前記音声区間内の音声データを前記認識辞書に記憶された認識語彙と前記派生認識語彙を用いて音声認識処理を行う、
音声認識方法をコンピュータに実行させるプログラム。
上述のようにした音声認識装置は、音声対話システムに用いることができ、たとえば、カーナビゲーションシステムやその他の音声入力インターフェイスを備える装置に利用することが可能である。
100 音声認識装置
101 認識辞書
102 解析部
103 派生認識語彙生成部
104 音声入力部
105 音声検出部
106 音声認識部

Claims (7)

  1. 複数の語彙を認識語彙として記憶する認識辞書と、
    前記認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能か否かを判断し、複数の語彙に分割可能な認識語彙を複数の部分認識語彙に分割する解析部と、
    前記部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行い、派生認識語彙を生成する派生認識語彙生成部と、
    音声データの入力を受け付ける音声入力部と、
    前記音声入力部で受け付けた音声データの音声区間を検出する音声検出部と、
    前記音声検出部で検出した音声区間内の音声データを前記認識辞書に記憶された認識語彙と前記派生認識語彙生成部で生成された派生認識語彙を用いて音声認識処理を行う音声認識部と、
    を備える音声認識装置。
  2. 前記派生認識語彙生成部は、前記認識語彙を部分認識語彙に分割した際の分割位置に無音の音素を追加するとともに前記部分認識語彙を結合して派生認識語彙を生成する、請求項1に記載の音声認識装置。
  3. 前記派生認識語彙生成部は、前記認識語彙から分割された部分認識語彙がそれぞれ名詞である場合、前記部分認識語彙の境界位置に無音の音素を追加するとともに前記部分認識語彙を結合して派生認識語彙を生成する、請求項2に記載の音声認識装置。
  4. 前記派生認識語彙生成部は、前記部分認識語彙が前記認識辞書に既に登録されている既知語と前記認識辞書に登録されていない未知語とを含む場合に、前記部分認識語彙の境界位置に無音の音素を追加する、請求項2に記載の音声認識装置。
  5. 前記派生認識語彙生成部は、前記部分認識語彙に含まれる品詞を判定し、判定結果に応じて他の語彙との置換、音素の追加、部分認識語彙の削除を行う、請求項1〜4のいずれかに記載の音声認識装置。
  6. 複数の語彙を認識語彙として記憶する認識辞書を用いて、入力された音声データの音声認識を行う音声認識装置が実行する音声認識方法であって、前記音声認識装置が、
    前記認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能な認識語彙について、複数の部分認識語彙に分割し、
    前記部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行って派生認識語彙を生成し、
    入力された音声データから音声区間を検出し、
    前記音声区間内の音声データを前記認識辞書に記憶された認識語彙と前記派生認識語彙を用いて音声認識処理を行う、
    音声認識方法。
  7. 複数の語彙を認識語彙として記憶する認識辞書を用いて、入力された音声データの音声認識を行う音声認識方法のプログラムであって、
    前記認識辞書に記憶されている認識語彙のうち複数の語彙に分割可能な認識語彙について、複数の部分認識語彙に分割するステップと、
    前記部分認識語彙に対して、所定音素の追加、他の語彙との置換、該当する部分認識語彙の削除およびこれらの再結合を行って派生認識語彙を生成するステップ、
    入力された音声データから音声区間を検出するステップと、
    前記音声区間内の音声データを前記認識辞書に記憶された認識語彙と前記派生認識語彙を用いて音声認識処理を行うステップと、
    を含む音声認識方法をコンピュータに実行させるプログラム。
JP2009173104A 2009-07-24 2009-07-24 音声認識装置、音声認識方法及びそのプログラム Expired - Fee Related JP5493537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173104A JP5493537B2 (ja) 2009-07-24 2009-07-24 音声認識装置、音声認識方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009173104A JP5493537B2 (ja) 2009-07-24 2009-07-24 音声認識装置、音声認識方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2011027971A true JP2011027971A (ja) 2011-02-10
JP5493537B2 JP5493537B2 (ja) 2014-05-14

Family

ID=43636797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009173104A Expired - Fee Related JP5493537B2 (ja) 2009-07-24 2009-07-24 音声認識装置、音声認識方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5493537B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016110082A (ja) * 2014-12-08 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 言語モデル学習方法及び装置、音声認識方法及び装置
WO2019244385A1 (ja) * 2018-06-18 2019-12-26 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121192A (ja) * 1993-10-25 1995-05-12 Oki Electric Ind Co Ltd ヒドン・マルコフ・モデルの学習方法
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2005031255A (ja) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp 辞書作成装置及び音声認識装置
JP2006243213A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP2007212660A (ja) * 2006-02-08 2007-08-23 Toyota Central Res & Dev Lab Inc 音声認識用辞書生成装置
JP2007256297A (ja) * 2004-03-18 2007-10-04 Nec Corp 音声処理方法と通信システム並びに通信端末およびサーバとプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121192A (ja) * 1993-10-25 1995-05-12 Oki Electric Ind Co Ltd ヒドン・マルコフ・モデルの学習方法
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2005031255A (ja) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp 辞書作成装置及び音声認識装置
JP2007256297A (ja) * 2004-03-18 2007-10-04 Nec Corp 音声処理方法と通信システム並びに通信端末およびサーバとプログラム
JP2006243213A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP2007212660A (ja) * 2006-02-08 2007-08-23 Toyota Central Res & Dev Lab Inc 音声認識用辞書生成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200202404004; 堂坂 浩二 Kohji Dohsaka: '複数の対話ドメインにおける協調的対話原則の分析 Corpus Analysis of Collaborative Principles in Diffe' 電子情報通信学会技術研究報告 Vol.97 No.593 IEICE Technical Report , 19980312, p.25-32, 社団法人電子情報通信学会 The Institute of Electro *
JPN6013018545; 堂坂 浩二 Kohji Dohsaka: '複数の対話ドメインにおける協調的対話原則の分析 Corpus Analysis of Collaborative Principles in Diffe' 電子情報通信学会技術研究報告 Vol.97 No.593 IEICE Technical Report , 19980312, p.25-32, 社団法人電子情報通信学会 The Institute of Electro *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016110082A (ja) * 2014-12-08 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 言語モデル学習方法及び装置、音声認識方法及び装置
WO2019244385A1 (ja) * 2018-06-18 2019-12-26 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Also Published As

Publication number Publication date
JP5493537B2 (ja) 2014-05-14

Similar Documents

Publication Publication Date Title
CN106663424B (zh) 意图理解装置以及方法
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US9916826B1 (en) Targeted detection of regions in speech processing data streams
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US20080077387A1 (en) Machine translation apparatus, method, and computer program product
US20110131042A1 (en) Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JPWO2016067418A1 (ja) 対話制御装置および対話制御方法
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
TW201203222A (en) Voice stream augmented note taking
JP2007256836A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2008233229A (ja) 音声認識システム、および、音声認識プログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2011504624A (ja) 自動同時通訳システム
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US20170270923A1 (en) Voice processing device and voice processing method
JP5493537B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
JP2010197644A (ja) 音声認識システム
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
JP2014134640A (ja) 文字起こし装置およびプログラム
Ziółko et al. SARMATA 2.0 automatic Polish language speech recognition system
JP4220151B2 (ja) 音声対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5493537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees