JP2014178567A - 音声認識装置、音声認識方法、およびプログラム - Google Patents

音声認識装置、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP2014178567A
JP2014178567A JP2013053290A JP2013053290A JP2014178567A JP 2014178567 A JP2014178567 A JP 2014178567A JP 2013053290 A JP2013053290 A JP 2013053290A JP 2013053290 A JP2013053290 A JP 2013053290A JP 2014178567 A JP2014178567 A JP 2014178567A
Authority
JP
Japan
Prior art keywords
speech recognition
candidates
recognition result
element candidate
result information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013053290A
Other languages
English (en)
Other versions
JP5701327B2 (ja
Inventor
Yohei Isobe
洋平 磯部
Yuta Suzuki
雄太 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013053290A priority Critical patent/JP5701327B2/ja
Publication of JP2014178567A publication Critical patent/JP2014178567A/ja
Application granted granted Critical
Publication of JP5701327B2 publication Critical patent/JP5701327B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】従来の音声認識装置においては、やり直しや、誤認識箇所の修正を行うのは、音声認識後のユーザの負担が増加するという課題があった。
【解決手段】ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段101と、音声データ受付手段101が受け付けた音声データに対して音声認識処理を実施し、要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段102と、音声認識結果情報が有する要素候補を表示する要素候補表示手段105と、要素候補表示手段105による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段107と、要素候補選択受付手段107が選択を受け付けた要素候補の並びである出力情報を出力する出力手段108とを具備する音声認識装置1により、ユーザの負担を軽減できる。
【選択図】図1

Description

本発明は、音声を認識する音声認識装置等に関する。
従来の音声認識装置では、誤認識によって不適切な認識結果が出力された場合には、ユーザが、音声入力のやり直しや、誤認識箇所の修正を行っていた(例えば、特許文献1参照)。
特開2008−90625号公報
しかしながら、音声入力のやり直しや、誤認識箇所の修正を行うのは、音声認識後のユーザの負担が増加するという問題があった。
上記課題に対し、本発明の目的は、音声認識後のユーザの負担を減らすことである。
本第一の発明の音声認識装置は、ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段と、音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段と、音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段と、要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段と、要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段とを具備する音声認識装置である。
また、本第二の発明の音声認識装置は、第一の発明に対して、要素候補表示手段は、表示する領域のサイズ、または音声認識結果情報の情報量に応じて、音声認識結果情報の全ての要素候補、または一部の要素候補を表示する、音声認識装置である。
また、本第三の発明の音声認識装置は、第一または二の発明に対して、音声認識結果情報取得手段は、要素候補の並びに関する尤度である尤度情報を含む音声認識結果情報を取得し、要素候補表示手段は、尤度情報に応じて要素候補を表示する、音声認識装置である。
また、本第四の発明の音声認識装置は、第三の発明に対して、要素候補表示手段は、要素候補の尤度が最も高い並びが直線的になるように表示する、音声認識装置である。
また、本第五の発明の音声認識装置は、第一から第四のいずれか一項の発明に対して、要素候補に含まれる少なくとも一部の用語と同音であり、用語と異なる用語である1以上の同音用語を取得する同音用語取得手段をさらに具備し、要素候補表示手段は、同音用語取得手段が取得した1以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示する音声認識装置である。
また、本第六の発明の音声認識装置は、第一から第五のいずれか一項の発明に対して、要素候補選択受付手段は、ユーザによって指定された要素候補の順番に応じた要素候補の並びの選択を受け付ける、音声認識装置である。
また、本第七の発明の音声認識装置は、第一から第五のいずれか一項の発明に対して、要素候補選択受付手段は、音声認識結果情報に含まれる要素候補のいずれかの並びの選択を受け付ける、音声認識装置である。
本発明による音声認識装置等によれば、音声認識後のユーザの負担を減らすことができる。
実施の形態1における音声認識装置のブロック図 同実施の形態における音声認識装置の動作を示すフローチャート 同実施の形態における同音用語格納手段に格納されている同音用語の一例を示す図 同実施の形態における要素候補表示手段による音声認識結果情報に含まれる要素候補の並びを表示する場合の一例を示す図 同実施の形態における要素候補表示手段による同音用語を表示する場合の一例を示す図 同実施の形態における出力手段が出力した情報の表示の一例を示す図 同実施の形態における要素候補表示手段による表示の変更の一例を示す図 同実施の形態における要素候補選択受付手段が受け付ける選択の一例を示す図 同実施の形態における要素候補表示手段による音声認識結果情報に含まれる要素候補の並びを表示する場合の一例を示す図 同実施の形態における要素候補表示手段による音声認識結果情報に含まれる要素候補の並びを表示する場合の一例を示す図 同実施の形態における要素候補選択受付手段が受け付ける選択の一例を示す図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、音声認識装置の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、音声認識した際に得られる要素候補の並びを表示し、表示された要素候補から要素候補の並びを選択できる音声認識装置1について説明する。
図1は、本実施の形態における音声認識装置1のブロック図である。音声認識装置1は、音声データ受付手段101、音声認識結果情報取得手段102、同音用語格納手段103、同音用語取得手段104、要素候補表示手段105、表示変更受付手段106、要素候補選択受付手段107、出力手段108、マイク1001、およびタッチパネル1002を備える。マイク1001は、ユーザが発話した音声から音声のデータである音声データを取得する。また、タッチパネル1002は、要素候補表示手段105、および出力手段108が出力した情報を表示する。また、タッチパネル1002は、ユーザが行った操作を示す情報を取得する。なお、マイク1001、およびタッチパネル1002は、公知技術であるため、それぞれの詳細な説明は省略する。
音声データ受付手段101は、音声データを受け付ける。この音声データは、ユーザより発話された音声のデータである。音声データ受付手段101は、発話された音声をマイク1001が集音して音声信号に変換した音声データを受け付けても良く、マイク1001以外が取得した音声データを受け付けても良い。例えば、音声データ受付手段101は、有線もしくは無線の通信回線を介して送信された音声データを受信しても良く、光ディスクや磁気ディスク、半導体メモリ等の所定の記録媒体から読み出された音声データを受け付けても良い。音声は、1または2以上の単語の音声であっても良く、1または2以上の文節の音声であっても良く、1または2以上の文章の音声であっても良い。なお、音声データ受付手段101は、受け付けを行うための、インタフェースカードやモデムやネットワークカード等のデバイスを含んでも良く、あるいは含まなくても良い。また、音声データ受付手段101は、ハードウェアによって実現されても良く、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されても良い。
音声認識結果情報取得手段102は、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する。音声認識とは、音声データが示す発話の内容を文字情報として取得する処理のことである。この文字情報は、複数の要素の集合である。音声認識の一般的な処理の流れは、音声データから人の発話を含む区間である発話区間を検出し、発話区間における音声データに音響モデルと語彙辞書に基づく音声照合を行って文字情報を取り出すという流れである。なお、音声認識結果情報取得手段102が行う音声認識処理の詳細は、いかなる処理であっても良い。音声認識の処理については、公知技術であるため、その詳細は省略する。音声認識結果情報は、音声データ受付手段101が受け付けた音声データに対して音声認識処理を実施した結果、取得された情報である。要素の単位は、単語であっても良く、形態素であっても良く、文節であっても良く、それらが混在していても良い。要素の単位は、音声認識のアルゴリズムによって決められても良い。例えば、ユーザが「きしゅうのかきをかいたい」と発話した場合の要素候補は、「紀州の」と「柿を」と「買い」と「たい」とであっても良く、「紀州」と「の」と「柿」と「を」と「買い」と「たい」とであっても良い。以下、要素の単位が、主に前者の場合について説明する。要素候補は、音声データ受付手段101が受け付けた音声データに対する音声認識の結果、取得されたものである。「候補」としているのは、本実施の形態では、音声認識の結果、2以上の要素候補の並びを取得することが前提であるからである。
音声認識結果情報は、上述のように、音声認識処理を実施した結果、音声データを要素の単位ごとに文字情報に変換した要素候補の並びを2以上含む情報である。例えば、ユーザが「きしゅうのかきをかいたい」と発話した場合に、音声認識結果情報は、「紀州の柿を買いたい」と「紀州の牡蠣を買いたい」と「紀州の花器を買いたい」等といった要素候補の並びを有していても良い。この場合の音声認識結果情報は、音声認識処理において、「柿」と「牡蠣」と「花器」とで、どの「かき」がユーザが発話した内容と同じか判断できなかったため、3種類以上の要素候補の並びを有している。なお、音声認識結果情報は、上記のように、文字列である要素候補の並びを有していても良く、要素候補をノード、要素候補間をエッジとしたグラフ構造で表現される要素候補の並びを有しても良い。
音声認識結果情報取得手段102は、尤度情報を含む音声認識結果情報を取得しても良い。尤度情報は、要素候補の並びに関する尤度を示す情報である。尤度とは、尤もらしさを示す値である。尤度情報は、音声認識の処理において算出される値である。尤度情報は、要素候補の並びごとの情報であっても良く、要素候補の並びの一部ごとの情報であっても良い。要素候補の並びの一部は、例えば、1個の要素候補であっても良く、2個の連続した要素候補であっても良く、3個以上の連続した要素候補であっても良い。なお、音声認識結果情報が有する要素候補の並びは、音声認識の処理において、要素候補の並びに関する尤度が所定の閾値より高い要素候補の並びであっても良く、音声認識処理で取得される要素候補の並びのうち、要素候補の並びに関する尤度が上位N件に含まれる要素候補の並びであっても良い。なお、Nは2以上の自然数とする。音声認識結果情報取得手段102は、通常、MPUやメモリ等から実現され得る。音声認識結果情報取得手段102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
同音用語格納手段103には、同音用語が格納される。同音用語は、ある用語と同音であり、その用語と異なる用語である。同音とは、「柿」と「牡蠣」のように、発音が同じであることである。なお、ここでの発音には、イントネーションを含めても良く、イントネーションを含めなくても良い。なお、同音用語は、同音異義語を含んでいても良く、同音同義語を含んでいても良い。同音同義語とは、同音で同じ意味を有する用語である。同音同義語は、例えば、「十分」と「充分」とのように音と意味とが共通し、表記が異なる関係の用語である。同音用語は、ある用語と異なる用語が同じ音であることを表現できる情報であればどのような方法で表現されても良い。例えば、同音用語の表現は、「柿,牡蠣」や「柿,花器」等のように1対1の関係で同音の用語を表現しても良く、「柿,牡蠣,花器,・・・」等のように複数の同音の用語をグループ化して表現しても良い。同音用語格納手段103には、用語のみからなる同音用語が格納されていても良く、記号を含めた同音用語が格納されていても良い。記号は、例えば、「☆」や「★」等に対して、「ほし」という音をあてて、「星」や「ほし」等と対応付けても良い。
同音用語格納手段103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。同音用語格納手段103に同音用語が格納される過程は問わない。例えば、記録媒体を介して同音用語が同音用語格納手段103で格納されるようになっても良く、通信回線等を介して送信された同音用語が同音用語格納手段103で格納されるようになっても良く、あるいは、入力デバイスを介して入力された同音用語が同音用語格納手段103で格納されるようになっても良い。
同音用語取得手段104は、要素候補に含まれる少なくとも一部の用語の同音用語を取得する。同音用語取得手段104が同音用語を取得する用語を含む要素候補は、主に音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補である。同音用語取得手段104は、同音用語格納手段103から同音用語を取得しても良く、同音用語格納手段103以外から同音用語を取得しても良い。「同音用語格納手段103以外から同音用語を取得する」場合は、同音用語取得手段104は、図示しないネットワークを介して、外部の同音用語を検索できる装置から取得しても良い。外部の同音用語を検索できる装置とは、例えば、IME(Input Method Editor)等で使用する変換辞書を公開している装置であっても良く、同音用語格納手段103と同様の内容を格納している格納手段を有する装置であっても良い。「要素候補に含まれる少なくとも一部の用語」は、単語であっても良く、形態素であっても良い。同音用語取得手段104は、形態素解析等を行って、「要素候補に含まれる少なくとも一部の用語」を取得すると、その用語を検索キーとして用いて、同音用語格納手段103に対して検索し、同音用語を取得する。なお、同音用語を取得する場合は、同音用語取得手段104は、自立語のみから同音用語を取得しても良い。例えば、同音用語取得手段104は、名詞・代名詞・動詞・形容詞・形容動詞等を検索キーとして同音用語を取得しても良い。また、同音用語取得手段104が、文字列から単語や形態素を抽出する方法は、いかなる方法であっても良い。公知技術により形態素解析等は可能であるので、形態素解析の詳細な説明は、省略する。また、音声認識結果情報に、各要素候補の形態素解析の結果等の一部の用語を示す情報が含まれている場合は、その情報が示す用語を検索キーとして用いて、同音用語格納手段103に対して検索しても良い。同音用語取得手段104は、通常、MPUやメモリ等から実現され得る。同音用語取得手段104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
要素候補表示手段105は、音声認識結果情報が有する2以上の要素候補を表示する。要素候補表示手段105は、要素候補の2以上の並びが分かるように表示しても良く、音声データの同じ部分の音声認識の結果である2以上の要素候補ごとに表示しても良い。「要素候補の2以上の並びが分かるように表示する」場合は、要素候補表示手段105は、縦方向に要素候補の並びを並べて表示しても良く、横方向に要素候補の並びを並べて表示しても良い。「要素候補の2以上の並びが分かるように表示する」は、要素候補の並びの一部を表示することであっても良く、要素候補の並びの全てを表示することであっても良い。「音声データの同じ部分の音声認識の結果である2以上の要素候補ごとに表示する」場合は、要素候補表示手段105は、縦方向に音声データの同じ部分の音声認識の結果である要素候補を並べて表示しても良く、横方向に音声データの同じ部分の音声認識の結果である要素候補を並べて表示しても良い。また、この場合は、要素候補表示手段105は、要素候補選択受付手段107が要素候補の選択を受け付けるたびに、選択された要素候補を含む並びにおける、その要素候補の次の要素候補を表示するようにしても良い。また、この場合で、選択された要素候補が複数の要素候補の並びに含まれているときは、要素候補表示手段105は、それぞれの要素候補の並びにおける、選択された要素候補の次の要素候補を表示しても良く、選択された要素候補の次の要素候補と、その選択された要素候補の次の要素候補と同じ部分の音声データに対する音声認識の結果である要素候補とを表示しても良い。選択された要素候補の次の要素候補を表示する場合は、要素候補表示手段105は、選択された要素候補の次の要素候補を選択しやすいように表示しても良い。例えば、要素候補表示手段105は、選択された要素候補の次の要素候補を、表示する領域の上部に表示しても良く、表示する領域の中心に表示しても良い。なお、要素候補表示手段105は、音声認識結果情報に含まれる要素候補のうち、複数の要素候補の並びに含まれる、音声データの同じ部分の音声認識の結果である要素候補を重複して表示しないようにしても良く、重複して表示するようにしても良い。例えば、音声データが「きしゅうのかき」を示している場合で、音声認識結果情報に「紀州の柿」と「紀州の牡蠣」とが含まれていたときは、要素候補表示手段105は、音声データの「きしゅうの」から取得された、二つの要素候補の並びに共通する要素である「紀州の」のうち、一方の「紀州の」を表示しなくても良い。つまり、この場合は、要素候補表示手段105は、「紀州の」と「柿」と「牡蠣」とが1度の表示で1個ずつ表示されるようにしても良い。なお、「音声データの同じ部分の音声認識結果」は、音声データの一部が同じ部分の音声認識結果であっても良い。例えば、音声データが「〜は、かわらない」であった場合で、[「〜は」「瓦」「無い」]と[「〜は」「変わらない」]の2種類の要素候補の並びが取得されたとき、「瓦」と「変わらない」とが、「音声データの同じ部分の音声認識結果」であっても良い。以下、「要素候補の2以上の並びが分かるように表示する」場合について、主に説明する。
また、要素候補表示手段105は、音声認識結果情報に含まれる全ての要素候補を表示しても良く、一部の要素候補を表示しても良い。例えば、図4は、ユーザが「きしゅうのかきをかいたい」と発話した場合の音声認識結果情報に含まれる全ての要素候補を表示している様子を示している。また、図7の左側は、図4と同様の音声認識結果情報に含まれる前半部分の要素候補を表示している様子を示している。要素候補表示手段105は、表示する領域のサイズ、または音声認識結果情報の情報量に応じて、その音声認識結果情報に含まれる全ての要素候補、または一部の要素候補を表示しても良い。なお、要素候補表示手段105は、表示する領域のサイズ、または音声認識結果情報の情報量から、その音声認識結果情報に含まれる全ての要素候補を表示できるかどうかを判断し、全ての要素候補を表示できる場合に、全ての要素候補を表示しても良く、全ての要素候補を表示できない場合に、一部の要素候補を表示しても良い。また、要素候補表示手段105は、表示する領域に対して、あらかじめ決められたサイズで各要素候補を表示し、全ての要素候補が表示できた場合に、全ての要素候補を表示しても良く、全ての要素候補が表示できなかった場合に一部の要素候補を表示しても良い。つまり、要素候補表示手段105は、結果として、全ての要素候補を表示しても良く、一部の要素候補を表示しても良い。全ての要素候補を表示できるかどうかを判断する場合は、要素候補表示手段105は、表示する領域に対して、あらかじめ決められたサイズで各要素候補を配置した際に、表示する領域のサイズに収まるかどうかを判断しても良く、縦方向と横方向にそれぞれいくつの要素候補が配置されるのか算出し、それらが表示する領域のサイズに収まるかどうかを判断しても良い。また、要素候補表示手段105は、全ての要素候補を表示できるように、要素候補の文字のサイズを変更して表示しても良い。なお、表示する領域のサイズは、例えば、画面のサイズであっても良く、作業ウィンドウのサイズであっても良い。
音声認識結果情報が尤度情報を含んでいる場合は、要素候補表示手段105は、尤度情報に応じて要素候補を表示しても良い。「尤度情報に応じて表示」する場合は、要素候補表示手段105は、例えば、要素候補の尤度の高い並びを選択しやすいよう表示しても良く、要素候補の尤度の高い並びを強調して表示しても良い。「選択しやすいよう表示」する場合は、要素候補表示手段105は、例えば、要素候補の尤度が最も高い並びが直線的になるように表示しても良く、要素候補の尤度が高い並びほど直線的になるように表示しても良い。また、「強調して表示」する場合は、要素候補表示手段105は、例えば、尤度の高い要素候補またはその並びを2重線で囲んで表示しても良く、尤度の高い要素候補またはその並びの色を変えて表示しても良い。また、「強調して表示」する場合は、要素候補表示手段105は、その尤度の値に応じて、多段階に表示方法を変えて表示しても良い。また、「直線的になるように表示」する場合は、要素候補表示手段105は、最も高い尤度を有する要素候補の並びを、表示する領域の中心に配置して表示しても良い。なお、図4は、音声認識結果情報に含まれる要素候補の並びのうち、「紀州の柿を買いたい」が最も高い尤度情報を有していたときの例を示している。例えば、図4では、要素候補表示手段105が「紀州の柿を買いたい」が直線的になるように要素候補の並びを表示している。
要素候補表示手段105は、図5のように、同音用語取得手段104が取得した1または2以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示しても良い。要素候補表示手段105は、同音用語の要素候補を、その同音用語を取得するために用いた要素候補と対応付けて表示しても良く、対応付けずに表示しても良い。対応付けて表示する場合は、要素候補表示手段105は、要素候補に、その要素候補含まれる少なくとも一部の用語を用いて取得した同音用語をつながりが分かるように表示しても良い。例えば、要素候補表示手段105は、図5の「紀州の」の部分のように、要素候補の一部の用語を同音用語で置換し、置換された部分以外の部分を省略した要素候補を表示しても良く、「解体」のところのように、要素候補の全部を同音用語で置換した要素候補を表示しても良い。前者の場合であっても、表示を省略している部分「の」は、明らかであるため、「奇襲」の表示は、要素候補の表示であると考えることができる。なお、要素候補表示手段105は、図5の「柿」等の部分のように、同音用語を非表示にした状態で表示しても良い。この場合、要素候補表示手段105は、同音用語の表示と非表示とを切り替えるインタフェースを画面内に配置しても良い。同音用語の表示と非表示とを切り替えるインタフェースは、例えば、ボタンであっても良い。要素候補表示手段105は、表示変更受付手段106が表示と非表示とを切り替えるボタンが押されたかどうかを受け付けることで、同音用語の表示と非表示とを切り替えて表示しても良い。図5において、同音用語を表示するボタンは、同音要素が表示されていない要素候補の下部にある「▽」ボタンである。また、同音用語を被表示にするボタンは、同音用語が表示されている要素候補の下部にある「△」ボタンである。なお、同音用語を表示する場合は、要素候補表示手段105は、他の要素候補に含まれている用語と同じ同音用語を表示するようにしても良く、表示しないようにしても良い。他の要素候補に含まれている用語と同じ同音用語を表示しない場合は、同音用語取得手段104がそもそも重複する同音用語を取得しないようにしても良い。また、要素候補表示手段105は、図9のように、音声認識結果情報に含まれている要素候補の並びの関係をも表示しても良い。また、要素候補表示手段105は、図10のように、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並びを明示して表示しても良い。また、要素候補表示手段105は、尤度情報をも表示しても良い。
なお、要素候補表示手段105は、表示変更受付手段106が受け付ける変更指示情報に応じて表示している情報を変更しても良い。表示変更受付手段106が受け付ける変更指示情報については、後述する。要素候補表示手段105は、ディスプレイデバイスを含むと考えても含まないと考えても良い。要素候補表示手段105は、ディスプレイデバイスのドライバーソフト、またはディスプレイデバイスのドライバーソフトとディスプレイデバイス等で実現され得る。
表示変更受付手段106は、要素候補表示手段105による表示に対する変更を指示する情報である変更指示情報を受け付ける。例えば、変更指示情報は、要素候補を拡大させる指示を示す情報であっても良く、縮小させる指示を示す情報であっても良く、全ての要素候補を表示させる指示を示す情報であっても良く、一部の要素候補を表示させる指示を示す情報であっても良く、同音用語を表示させる指示を示す情報であっても良く、同音用語を非表示にする指示を示す情報であっても良く、画面をスクロールさせる指示を示す情報であっても良い。なお、画面をスクロールさせる指示を示す情報には、スクロールさせる分量を示す数値情報が含まれていても良い。表示変更受付手段106は、タッチパネル1002から変更指示情報を受け付けるが、タッチパネル1002以外から変更指示情報を受け付けても良い。タッチパネル1002以外から変更指示情報を受け付ける場合は、例えば、テンキーやキーボードやマウスやメニュー画面によるもの等から変更指示情報を受け付けても良い。表示変更受付手段106は、タッチパネル1002やテンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
要素候補選択受付手段107は、要素候補表示手段105による要素候補の表示に対して、要素候補の並びの選択を受け付ける。要素候補選択受付手段107は、ユーザが行った選択を受け付ける。要素候補選択受付手段107が受け付ける選択の要素候補の並びは、ユーザによって指定された要素候補の順番に応じた要素候補の並びであっても良く、音声認識結果情報に含まれる要素候補のいずれかの並びであっても良い。なお、要素候補の並びを選択するユーザは、音声データ受付手段101に音声データを入力したユーザと同一人物であっても良く、異なる人物であっても良い。また、要素候補選択受付手段107は、同音用語である要素候補をも含む要素候補の並びを選択しても良い。
「ユーザによって指定された要素候補の順番に応じた要素候補の並び」の選択を受け付ける場合は、要素候補選択受付手段107は、ユーザが選択した順に並んだ要素候補の並びを受け付ける。この場合、例えば、図8のように、ユーザは、出力したい順番で要素候補の並びを選択できる。なお、図8の場合は、要素候補選択受付手段107は、「柿を」「買い」「たい」「紀州の」という要素候補の並びの選択を受け付ける。「音声認識結果情報に含まれている要素候補のいずれかの並び」の選択を受け付ける場合は、要素候補表示手段105は、図11のように、ユーザが、あらかじめ決められたいくつかの要素候補の並びから選択できるように表示しても良い。なお、図11の場合は、要素候補選択受付手段107は、「紀州の」「柿を」「買い」「たい」という要素候補の並びの選択を受け付ける。なお、要素候補選択受付手段107が受け付ける要素候補、および要素候補の並びは、そのままの情報であっても良く、要素候補、および要素候補の並びを識別する情報であっても良い。要素候補、および要素候補の並びを識別する情報は、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補、および要素候補の並びを識別する情報である。
要素候補選択受付手段107は、タッチパネル1002から要素候補の並びの選択を受け付けるが、タッチパネル1002以外から要素候補の並びの選択を受け付けても良い。タッチパネル1002以外から要素候補の並びの選択を受け付ける場合は、要素候補選択受付手段107は、例えば、テンキーやキーボードやマウスによるもの等から要素候補の並びの選択を受け付けても良い。要素候補選択受付手段107は、タッチパネル1002やテンキーやキーボード等の入力手段のデバイスドライバー等で実現され得る。
出力手段108は、要素候補選択受付手段107が選択を受け付けた要素候補の並びである出力情報を出力する。出力情報は、要素候補の並びを、区切り文字等を用いずにつなげた1個の文字列であっても良い。出力手段108は、要素候補選択受付手段107が、「ユーザによって指定された要素候補の順番に応じた要素候補の並び」の選択を受け付けた場合は、その要素候補の並びの順に出力情報を構成しても良い。また、出力手段108は、要素候補選択受付手段107が、「音声認識結果情報に含まれる要素候補のいずれかの並び」の選択を受け付けた場合は、音声認識結果情報に含まれる要素候補の選択された並びの順に出力情報を構成しても良い。なお、出力手段108は、他の構成要素、または他の装置に対して出力しても良い。例えば、出力手段108は、検索キーワードを受け付ける装置や、文章を作成するアプリケーション等に対して出力しても良い。出力手段108は、出力を行うデバイス(例えば、表示デバイスやプリンタ等)を含んでも良く、あるいは含まなくても良い。また、出力手段108は、ハードウェアによって実現されても良く、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されても良い。
図2は、本実施の形態における音声認識装置1の動作の一例を示すフローチャートである。以下、図2を用いて動作について説明する。
(ステップS201)音声データ受付手段101は、音声データを受け付けたかどうか判断する。音声データを受け付けた場合は、ステップS202へ進み、音声データ受け付けなかった場合は、音声データを受け付けるまでステップS201の処理を繰り返す。
(ステップS202)音声認識結果情報取得手段102は、ステップS201で受け付けた音声データを音声認識した結果である音声認識結果情報を取得する。
(ステップS203)同音用語取得手段104は、ステップS202で取得した音声認識結果情報に含まれている要素候補に含まれている用語の同音用語を取得する。
(ステップS204)要素候補表示手段105は、ステップS202で取得した音声認識結果情報に含まれている全ての要素候補を、表示する領域に表示できるかどうか判断する。表示できない場合は、ステップS205へ進み、表示できる場合は、ステップS206へ進む。
(ステップS205)要素候補表示手段105は、ステップS202で取得した音声認識結果情報に含まれている要素候補の一部を表示する。
(ステップS206)要素候補表示手段105は、ステップS202で取得した音声認識結果情報に含まれている要素候補の全部を表示する。
(ステップS207)表示変更受付手段106は、表示に対する変更を受け付けたかどうか判断する。表示に対する変更を受け付けた場合は、ステップS208へ進み、表示に対する変更を受け付けなかった場合は、ステップS209へ進む。
(ステップS208)要素候補表示手段105は、表示変更受付手段106が受け付けた変更指示情報に応じて表示を変更する。そして、ステップS207へ戻る。
(ステップS209)要素候補変更受付手段106は、要素候補の並びの選択を受け付けたかどうか判断する。選択を受け付けた場合は、ステップS210へ進み、選択を受け付けなかった場合は、ステップS207へ戻る。
(ステップS210)出力手段108は、ステップS209で受け付けた選択の要素候補の並びである出力情報を出力する。そして、ステップS201へ戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声認識装置1の具体的な動作について説明する。なお、本具体例において示した各図面の情報は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。なお、本具体例において、音声認識結果情報取得手段102は、音声認識結果情報を取得する際に、その音声認識結果情報に含まれる要素候補のそれぞれの並びの尤度情報も取得するものとする。また、本具体例において、音声認識結果情報取得手段102が取得する音声認識結果情報に含まれる要素候補には、形態素解析の結果を含んでいるものとする。
本具体例において、同音用語格納手段103には、図3で示されるテーブルが格納されているものとする。図3のテーブルは、同音用語を有している。例えば、同音用語「かき,カキ,柿,火器,牡蠣,下記,火器」が登録されている。
ユーザは、音声認識装置1とリンクする電子メールを作成するソフトウェアであるメーラーを起動し、メールの作成を開始したとする。そして、ユーザは、「音声入力ボタン」を押して、音声入力機能を有する音声認識装置1を立ち上げ、マイク1001に向かって「きしゅうのかきをかいたい」と発話したものとする。
音声データ受付手段101は、マイク1001が取得した音声データ「きしゅうのかきをかいたい」を受け付ける(ステップS201)。音声データ受付手段101が受け付けた音声データは、音声認識結果情報取得手段102によって音声認識処理が実行される。そして、音声認識結果情報取得手段102は、音声認識結果情報{[「紀州の」「柿を」「買い」「たい」,0.88],[「紀州の」「牡蠣を」「買い」「たい」,0.72],[「紀州の」「花器を」「買い」「たい」,0.68],[「紀州の」「牡蠣を」「解体」,0.55],[「紀州の」「花器を」「解体」,0.52]}を取得したものとする(ステップS202)。なお、ここで取得した音声認識結果情報に含まれる要素候補の並びの後ろの数字は、直前の要素候補の並びに対応する尤度情報であるものとする。同音用語取得手段104は、この音声認識結果情報を渡されると音声認識結果情報が有する要素候補に含まれている形態素のうち、助詞と助動詞とを除いた形態素「紀州」と「牡蠣」と「柿」と「花器」と「買い」と「解体」とに対応する同音用語を取得する。その結果、同音用語取得手段104は、「紀州」に対応する同音用語「きしゅう,キシュウ,奇襲,既修,貴酬」等のように、助詞と助動詞とを除いた音声認識結果情報に含まれる全て要素候補の形態素の同音用語を取得したものとする(ステップS203)。同音用語取得手段104によって同音用語を取得されると、要素候補表示手段105は、この音声認識結果情報に含まれる要素候補の並びが、タッチパネル1002の表示する領域に全て表示できかどうかを判断する(ステップS204)。ここでは、要素候補表示手段105は、全て表示できると判断したものとする。要素候補表示手段105は、音声認識結果情報に含まれる尤度情報が「0.88」で最も高い「紀州の」「柿を」「買い」「たい」の要素候補が表示する領域の中央に直線的に並ぶようにして表示する。なお、ここでは、同音用語は、非表示の状態で表示されるものとし、他の要素候補の並びに含まれる、音声データの同じ部分の認識結果である要素候補も表示しないようにした。この場合のタッチパネル1002の画面には、図4のように表示される(ステップS205)。
ユーザは、図4の画面を確認すると、タッチパネルを操作して、「紀州の」の下部にある「▽」ボタンを押したものとする。表示変更受付手段106は、「紀州の」の同音用語を表示させる変更指示情報を受け付ける(ステップS207)。要素候補表示手段105は、「紀州の」の同音用語を表示させる変更指示情報に応じて、「紀州の」の同音用語を表示する(ステップS208)。さらに、ユーザは、「解体」の下部にある「▽」ボタンを押したものとする。「解体」の同音用語を表示させる変更指示情報は、同様に表示変更受付手段106が受け付け、要素候補表示手段105が、「解体」の同音用語を表示する。すると、図5のように表示される。
ユーザは、タッチパネルを操作して、「紀州の」と「柿を」と「買い」と「たい」とをこの順に選択したものとする。すると、要素候補選択受付手段107は、要素候補の並び[「紀州の」,「柿を」,「買い」,「たい」]を受け付ける(ステップS209)。要素候補選択受付手段107が選択を受け付けると、出力手段108は、要素候補選択受付手段107が受け付けた要素候補の並びから出力情報「紀州の柿を買いたい」を構成し、メーラーに出力する(ステップS210)。すると、メーラーは、図6のように表示する。
本具体例では、要素候補表示手段105が、この音声認識結果情報に含まれる要素候補の並びを、タッチパネル1002の表示する領域に全て表示できると判断した場合について説明したが、要素候補表示手段105がタッチパネル1002の表示する領域に全ての要素候補の並びが表示できないと判断した場合には、要素候補表示手段105は、音声認識結果情報に含まれる要素候補の並びの一部の要素候補を表示する(ステップS204)。すると、図7の左の図のように表示される。そして、ユーザは、タッチパネル1002を右から左へフリックしたものとする。すると、表示変更受付手段106は、画面をスクロールさせる指示を示す変更指示情報を受け付ける(ステップS207)。要素候補表示手段105は、変更指示情報に含まれるスクロールさせる分量に応じて、全ての要素候補が右から左へ移動するように見えるよう表示している要素候補を左へ移動させて表示する(ステップS208)。すると、図7の右の図のように表示される。
また、本具体例では、ユーザが、「紀州の」と「柿を」と「買い」と「たい」とを順に選択した場合について説明したが、ユーザが、図8のように、「柿を」と「買い」と「たい」と「紀州の」とを順に選択した場合は、要素候補選択受付手段107は、その順番通りの要素候補の並びの選択を受け付ける(ステップS209)。要素候補選択受付手段107が選択を受け付けると、出力手段108は、要素候補選択受付手段107が受け付けた要素候補の並びから出力情報「柿を買いたい紀州の」を構成し、メーラーに出力する(ステップS210)。なお、要素候補選択受付手段107は、ユーザが選択した順番にかかわらず音声認識結果情報に含まれる要素候補の並びと同じ順番になるように受け付けても良い(ステップS209)。
また、本具体例では、要素候補表示手段105は、図4のように表示したが、要素候補表示手段105は、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並びが分かるように表示しても良い。例えば、要素候補表示手段105は、図9のように、音声認識結果情報に含まれている要素候補の並びの関係を矢印で接続することで表示しても良く、図10のように、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並び全体を矢印で明示して表示しても良い。なお、音声認識結果情報取得手段102が取得した音声認識結果情報に含まれる要素候補の並びが分かるように表示した場合に、ユーザが、図11のように、要素候補の並びの矢印を選択したものとする。すると要素候補選択受付手段107は、「紀州の」「柿を」「食べ」「たい」の順に要素候補の並びの選択を受け付ける。
本実施の形態において、要素候補表示手段105が、要素候補を表示し、要素候補選択受付手段107が、ユーザによる、要素候補の並びの選択を受け付けることができる。要素候補の並びから、ユーザが取得したい要素候補の並びを選択できる。その結果、例えば、これまで行われてきた、ユーザによる誤認識箇所の修正の作業が、要素候補の並びの選択のみですむため、要素候補の並びを選択するユーザの負担が軽減される。また、要素候補表示手段105が、音声認識結果情報に含まれる要素候補のうち、複数の要素候補の並びに含まれる、音声データの同じ部分の音声認識の結果である要素候補を重複して表示しない場合は、要素候補の全ての並びを列挙するよりも無駄な情報が少なくなるため、一覧性の高い表示ができる。その結果、例えば、ユーザは、容易に要素候補の並びを選択できる。また、要素候補表示手段105が、音声認識結果情報に含まれる要素候補の並びの量に応じて表示を変更できるようにする場合は、例えば、タブレット端末とスマートフォンとで異なる表示が実現できる。具体的には、タブレット端末では、全ての要素候補を表示し、スマートフォンでは、一部の要素候補を表示する等、画面のサイズに適した表示ができる。また、要素候補表示手段105が、尤度情報に応じて要素候補の並びを表示できるようにする場合は、例えば、尤度情報の高い要素候補の並びを選択しやすいように表示できる。その結果、例えば、ユーザが、適切な要素候補を探す時間が短縮される。また、要素候補表示手段105が、尤度情報が高い要素候補の並びを直線的に表示できるようにする場合は、例えば、多くの場合において、ユーザは、直線をなぞるように尤度の高い要素候補の並びを選択するだけで、適切な要素候補の並びを選択できる。その結果、例えば、ユーザが、適切な要素候補を探す時間が短縮される。また、要素候補表示手段105が、表示する各要素候補に対応する同音用語を表示できるようにする場合は、音声認識で認識されなかった同音の用語も要素候補の並びに含めて選択できる。また、要素候補選択受付手段107が、ユーザによって指定された要素候補の順番に応じた要素候補の並びの選択を受け付ける場合には、音声認識結果情報に含まれない順番の要素候補の並びからも出力情報を構成できる。例えば、ユーザは、発話時と異なる順番の出力情報を出力させることができる。また、要素候補選択受付手段107が、ユーザによって指定された要素候補の順番に関わらず、音声認識結果情報に含まれる要素候補の並びの選択を受け付ける場合には、選択したい要素候補の並びに含まれる全ての要素候補を選択しなくても、要素候補の並びを選択するだけで出力情報を構成できる。
なお、本実施の形態では、マイク1001を含む場合について説明したが、音声認識装置1は、マイク1001を含んでいなくても良い。音声認識装置1がマイク1001を含まない場合は、音声データ受付手段101は、図示しない格納手段に格納されている音声データを受け付けても良く、図示しないネットワークを介して音声データを受信しても良く、外部の装置に含まれるマイクで録音した音声データを、メモリーカード等の記憶媒体を介して受け付けても良い。
また、本実施の形態では、タッチパネル1002を含む場合について説明したが、音声認識装置1は、タッチパネル1002を含んでいなくても良い。音声認識装置1がタッチパネル1002を含まない場合は、要素候補表示手段105は、他のディスプレイに表示しても良く、出力手段108は、他のディスプレイ、他の装置、または他の構成要素に出力しても良い。また、タッチパネル1002を含まない場合は、表示変更受付手段106は、ユーザがマウスやキーボード等を用いて出力した変更指示情報を受け付けても良く、要素候補選択受付手段107は、ユーザがマウスやキーボード等を用いて選択した要素候補の並びの選択を受け付けても良い。
また、本実施の形態では、表示変更受付手段106を含む場合について説明したが、音声認識装置1は、表示変更受付手段106を含んでいなくても良い。音声認識装置1が表示変更受付手段106を含んでいない場合は、要素候補表示手段105は、要素候補を選択する度に、次の要素候補を表示するように表示する要素候補を変更しても良い。
また、本実施の形態では、同音用語格納手段103と同音用語取得手段104とを含む場合について説明したが、音声認識装置1は、同音用語格納手段103と同音用語取得手段104とを含んでいなくても良い。音声認識装置1が、同音用語格納手段103と同音用語取得手段104とを含んでいない場合は、要素候補表示手段105は、同音用語を表示しなくても良い。
また、本実施の形態における音声認識装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、コンピュータを、ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段、音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声認識の単位である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段、音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段、要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段、要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段として機能させるためのプログラムである。
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、またはソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部等におけるモデムやインタフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
図12は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの内部構成の一例を示す図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図12において、コンピュータシステム1000は、マイク1001と、タッチパネル1002と、MPU1003と、ブートアッププログラム等のプログラム、およびデータを格納するためのフラッシュROM1004と、アプリケーションプログラムの命令を一時的に格納すると共に、一時記憶空間を提供するRAM1005と、MPU1003等を相互に接続するバス1006とを備える。
プログラムは、コンピュータシステム1000に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1000がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」と読み替えても良い。
以上のように、本発明にかかる音声認識装置等は、音声認識後のユーザの負担を減らす効果を有し、音声認識装置等として有用である。
1 音声認識装置
101 音声データ受付手段
102 音声認識結果情報取得手段
103 同音用語格納手段
104 同音用語取得手段
105 要素候補表示手段
106 表示変更受付手段
107 要素候補選択受付手段
108 出力手段

Claims (9)

  1. ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段と、
    前記音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段と、
    前記音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段と、
    前記要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段と、
    前記要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段とを具備する音声認識装置。
  2. 前記要素候補表示手段は、
    表示する領域のサイズ、または前記音声認識結果情報の情報量に応じて、前記音声認識結果情報の全ての要素候補、または一部の要素候補を表示する、請求項1記載の音声認識装置。
  3. 前記音声認識結果情報取得手段は、
    要素候補の並びに関する尤度である尤度情報を含む音声認識結果情報を取得し、
    前記要素候補表示手段は、
    前記尤度情報に応じて要素候補を表示する、請求項1または2記載の音声認識装置。
  4. 前記要素候補表示手段は、
    要素候補の尤度が最も高い並びが直線的になるように表示する、請求項3記載の音声認識装置。
  5. 前記要素候補に含まれる少なくとも一部の用語と同音であり、当該用語と異なる用語である1以上の同音用語を取得する同音用語取得手段をさらに具備し、
    前記要素候補表示手段は、
    前記同音用語取得手段が取得した1以上の同音用語を用いて、要素候補に含まれる用語を同音用語で置換した要素候補をも表示する請求項1から請求項4のいずれか一項記載の音声認識装置。
  6. 前記要素候補選択受付手段は、
    ユーザによって指定された要素候補の順番に応じた要素候補の並びの選択を受け付ける、請求項1から請求項5のいずれか一項記載の音声認識装置。
  7. 前記要素候補選択受付手段は、
    前記音声認識結果情報に含まれる要素候補のいずれかの並びの選択を受け付ける、請求項1から請求項5のいずれか一項記載の音声認識装置。
  8. 音声データ受付手段と、音声認識結果情報取得手段と、要素候補表示手段と、要素候補選択受付手段と、出力手段とを用いて処理される音声認識方法であって、
    前記音声データ受付手段が、ユーザより発話された音声のデータである音声データを受け付ける音声データ受付ステップと、
    前記音声認識結果情報取得手段が、前記音声データ受付ステップが受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得ステップと、
    前記要素候補表示手段が、前記音声認識結果情報が有する2以上の要素候補を表示する要素候補表示ステップと、
    前記要素候補選択受付手段が、前記要素候補表示ステップによる要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付ステップと、
    前記出力手段が、前記要素候補選択受付ステップが選択を受け付けた要素候補の並びである出力情報を出力する出力ステップとを具備する音声認識方法。
  9. コンピュータを、
    ユーザより発話された音声のデータである音声データを受け付ける音声データ受付手段、
    前記音声データ受付手段が受け付けた音声データに対して音声認識処理を実施し、音声データに対応する音声認識結果の一部である要素の候補である要素候補の2以上の並びを含む音声認識結果情報を取得する音声認識結果情報取得手段、
    前記音声認識結果情報が有する2以上の要素候補を表示する要素候補表示手段、
    前記要素候補表示手段による要素候補の表示に対して、要素候補の並びの選択を受け付ける要素候補選択受付手段、
    前記要素候補選択受付手段が選択を受け付けた要素候補の並びである出力情報を出力する出力手段として機能させるためのプログラム。
JP2013053290A 2013-03-15 2013-03-15 音声認識装置、音声認識方法、およびプログラム Active JP5701327B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013053290A JP5701327B2 (ja) 2013-03-15 2013-03-15 音声認識装置、音声認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013053290A JP5701327B2 (ja) 2013-03-15 2013-03-15 音声認識装置、音声認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014178567A true JP2014178567A (ja) 2014-09-25
JP5701327B2 JP5701327B2 (ja) 2015-04-15

Family

ID=51698552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013053290A Active JP5701327B2 (ja) 2013-03-15 2013-03-15 音声認識装置、音声認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5701327B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020184631A1 (ja) * 2019-03-11 2020-09-17 株式会社RevComm 情報処理装置
JPWO2019163011A1 (ja) * 2018-02-21 2020-10-01 三菱電機株式会社 表示制御装置および表示制御方法
CN116580701A (zh) * 2023-05-19 2023-08-11 国网物资有限公司 告警音频识别方法、装置、电子设备和计算机介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844470B (zh) * 2016-09-18 2021-04-30 腾讯科技(深圳)有限公司 一种语音数据处理方法及其设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148747A (ja) * 1998-11-12 2000-05-30 Omron Corp 変換候補表示方法,およびこの方法によるかな漢字変換用のプログラムの記録媒体ならびにかな漢字変換装置
JP2003005789A (ja) * 1999-02-12 2003-01-08 Microsoft Corp 文字処理装置および方法
JP2003202886A (ja) * 2001-12-28 2003-07-18 Toshiba Corp テキスト入力処理装置及び方法並びにプログラム
JP2005044103A (ja) * 2003-07-28 2005-02-17 Toshiba Corp 文書作成装置、文書作成方法およびプログラム
WO2006054724A1 (ja) * 2004-11-22 2006-05-26 National Institute Of Advanced Industrial Science And Technology 音声認識装置及び方法ならびにプログラム
JP2010139744A (ja) * 2008-12-11 2010-06-24 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148747A (ja) * 1998-11-12 2000-05-30 Omron Corp 変換候補表示方法,およびこの方法によるかな漢字変換用のプログラムの記録媒体ならびにかな漢字変換装置
JP2003005789A (ja) * 1999-02-12 2003-01-08 Microsoft Corp 文字処理装置および方法
JP2003202886A (ja) * 2001-12-28 2003-07-18 Toshiba Corp テキスト入力処理装置及び方法並びにプログラム
JP2005044103A (ja) * 2003-07-28 2005-02-17 Toshiba Corp 文書作成装置、文書作成方法およびプログラム
WO2006054724A1 (ja) * 2004-11-22 2006-05-26 National Institute Of Advanced Industrial Science And Technology 音声認識装置及び方法ならびにプログラム
JP2010139744A (ja) * 2008-12-11 2010-06-24 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019163011A1 (ja) * 2018-02-21 2020-10-01 三菱電機株式会社 表示制御装置および表示制御方法
US11243741B2 (en) 2018-02-21 2022-02-08 Mitsubishi Electric Corporation Display control device and display control method
WO2020184631A1 (ja) * 2019-03-11 2020-09-17 株式会社RevComm 情報処理装置
JPWO2020184631A1 (ja) * 2019-03-11 2021-04-01 株式会社RevComm 情報処理装置
JP7053069B2 (ja) 2019-03-11 2022-04-12 株式会社RevComm 情報処理装置
US11862190B2 (en) 2019-03-11 2024-01-02 Revcomm Inc. Information processing device
CN116580701A (zh) * 2023-05-19 2023-08-11 国网物资有限公司 告警音频识别方法、装置、电子设备和计算机介质
CN116580701B (zh) * 2023-05-19 2023-11-24 国网物资有限公司 告警音频识别方法、装置、电子设备和计算机介质

Also Published As

Publication number Publication date
JP5701327B2 (ja) 2015-04-15

Similar Documents

Publication Publication Date Title
TWI293455B (en) System and method for disambiguating phonetic input
RU2379767C2 (ru) Коррекция ошибок для систем распознавания речи
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US20130073286A1 (en) Consolidating Speech Recognition Results
US20140035823A1 (en) Dynamic Context-Based Language Determination
US20090326938A1 (en) Multiword text correction
KR101474854B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
JP5535238B2 (ja) 情報処理装置
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
US20160267902A1 (en) Speech recognition using a foreign word grammar
US9009051B2 (en) Apparatus, method, and program for reading aloud documents based upon a calculated word presentation order
JP5701327B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
KR101334154B1 (ko) 중국어 단어 입력 장치 및 방법
KR20170009486A (ko) 청크 기반 언어 학습용 데이터베이스 구축 방법 및 이를 수행하는 전자 기기
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
CN1965349A (zh) 多形式的非歧意性语音识别
JP2019101739A (ja) 情報処理装置、情報処理システムおよびプログラム
JP5318030B2 (ja) 入力支援装置、抽出方法、プログラム、及び情報処理装置
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
KR20160054751A (ko) 텍스트 편집 시스템 및 그 방법
JP2006031725A (ja) 文字処理装置
CN112786002B (zh) 一种语音合成方法、装置、设备及存储介质
JP2003288098A (ja) ディクテーション装置、方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150217

R150 Certificate of patent or registration of utility model

Ref document number: 5701327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250