JP2007079122A - 音声処理装置、およびプログラム - Google Patents

音声処理装置、およびプログラム Download PDF

Info

Publication number
JP2007079122A
JP2007079122A JP2005266770A JP2005266770A JP2007079122A JP 2007079122 A JP2007079122 A JP 2007079122A JP 2005266770 A JP2005266770 A JP 2005266770A JP 2005266770 A JP2005266770 A JP 2005266770A JP 2007079122 A JP2007079122 A JP 2007079122A
Authority
JP
Japan
Prior art keywords
candidate
candidates
reliability
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005266770A
Other languages
English (en)
Inventor
Toshiyuki Takezawa
寿幸 竹澤
Toru Shimizu
徹 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005266770A priority Critical patent/JP2007079122A/ja
Publication of JP2007079122A publication Critical patent/JP2007079122A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】従来の音声処理装置においては、音声認識結果をユーザへ効率的に提示することができないという課題があった。
【解決手段】音声を受け付ける音声受付部と、前記音声に対して音声認識し、予め決められた数の音声認識結果の候補であるNベスト候補を取得する候補取得部と、前記候補取得部が取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する信頼性算出部と、前記信頼性算出部が算出した各候補の信頼性に基づいて、各候補の一部または全部を出力する出力部とを具備する音声処理装置により、音声認識結果をユーザへ効率的に提示することができる。
【選択図】図1

Description

本発明は、音声認識結果をユーザへ効率的に提示することができる音声処理装置等に関するものである。
従来の第一の音声処理装置において、音声認識結果の第1位候補のみを用いて翻訳する仕組みを採用していた(例えば、非特許文献1参照)。
また、従来の第二の音声処理装置において、第3位までの音声認識候補を表示し,ユーザが選択する仕組みを採用していた(例えば、非特許文献2参照)。
菅谷史昭、他4名、「音声翻訳システム:ATR−MATRIXの開発と評価」、情報処理学会論文誌、2002、43(7)、p.2230−2241 森元逞、他7名、「音声翻訳システム(ASURA)のシステム構成と性能評価」、情報処理学会論文誌、1996、37(9)、p.1726−1735
しかしながら、従来の音声処理装置においては、絞り込んだ音声認識結果に対して妥当性処理を加えないので、不自然な文章の音声認識結果が出力されるなど、音声認識結果をユーザへ効率的に提示することができない、と言う課題があった。
本第一の発明の音声処理装置は、音声を受け付ける音声受付部と、前記音声に対して音声認識し、予め決められた数の音声認識結果の候補であるNベスト候補を取得する候補取得部と、前記候補取得部が取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する信頼性算出部と、前記信頼性算出部が算出した各候補の信頼性に基づいて、各候補の一部または全部を出力する出力部とを具備する音声処理装置である。
かかる構成により、音声認識結果をユーザへ効率的に提示することができる。
また、本第二の発明の音声処理装置は、第一の発明に対して、前記出力部は、予め閾値を保持している閾値保持手段と、前記各候補の信頼性が前記閾値と所定の関係にあるか否かを判断する判断手段と、前記判断手段が所定の関係にあると判断した候補のみ出力する出力手段を具備する音声処理装置である。
かかる構成により、音声認識結果をユーザへより効率的に提示することができる。
また、本第三の発明の音声処理装置は、第一、第二いずれかの発明に対して、前記出力部が出力した候補のうちの所定の条件を満たす候補に対して、翻訳処理を行い、受け付けた音声の言語と異なる言語に変換し、出力する翻訳出力部をさらに具備する音声処理装置である。
かかる構成により、音声認識結果を効率的に絞り込んだ上で、翻訳処理を行うことができる。
また、本第四の発明の音声処理装置は、第三の発明に対して、前記翻訳出力部は、前記受け付けた音声の言語と異なる言語に変換した結果を音声合成し、音声出力する音声処理装置である。
かかる構成により、高性能でリアルタイム翻訳が可能な自動翻訳電話等を実現できる。
本発明による音声処理装置によれば、音声認識結果をユーザへ効率的に提示することができる。
以下、音声処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における音声処理装置のブロック図である。
音声処理装置は、音声受付部101、候補取得部102、信頼性算出部103、出力部104を具備する。候補取得部102は、候補数情報格納手段1021、音声認識手段1022、候補取得手段1023を具備する。出力部104は、閾値保持手段1041、判断手段1042、出力手段1043を具備する。なお、音声受付部101は、例えば、マイク305等から音声を受け付ける。また、出力部104は、例えば、モニタ304等に音声認識結果を出力する。
音声受付部101は、音声を受け付ける。音声の入力手段は、マイク305や記録媒体からの読み出し手段等、何でも良い。音声受付部101は、マイク305等の入力手段のデバイスドライバーや等で実現され得る。
候補取得部102は、音声受付部101が受け付けた音声に対して音声認識し、予め決められた数(N(Nは自然数))の音声認識結果の候補であるNベスト候補を取得する。候補取得部102は、例えば、音声認識した結果である1以上の候補に対して、音声認識スコアを算出し、音声認識スコアが大きい順から数えて、N個の候補(Nベスト候補)を取得する。また、候補取得部102は、例えば、音声認識スコアが異なる同一の候補を除去する。その際、候補取得部102は、同一の候補のうち、最大の音声認識スコアを有する一の候補のみを残す。なお、単語間に無音が挿入されるなどの理由により、音声認識候補として同一であっても、音声認識スコアが異なる重複した候補が含まれ得る。候補取得部102は、通常、MPUやメモリ等から実現され得る。候補取得部の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
候補数情報格納手段1021は、音声認識の結果、言語としての信頼性を算出する対象の候補数の情報である候補数情報を格納している。候補数情報は、「N」であり、「N」は自然数である。なお、「N」は、例えば、「10」である。候補数情報格納手段1021は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。
音声認識手段1022は、音声受付部101が受け付けた音声に対して、音声認識処理を行い、多数の音声認識結果の候補を得る。音声認識手段1022が得た音声認識結果の候補は、通常、文字コード列である。また、音声認識手段1022は、得た候補に対して、音声認識スコアを取得し、候補の文字コード列と、音声認識スコアを対にして、少なくとも一時的に所定の記録領域に記録する。音声認識スコアとは、音としての自然さや正確さ等を示すスコアと、隣り合う単語の並びやすさについてのスコアから算出されるスコアである。なお、音声認識スコアは、母音を多く含む単語のスコアが子音を多く含む単語のスコアより大きくなったり、使われる頻度が非常に少ない単語のスコアが小さくなったりする。
候補取得手段1023は、音声認識手段1022がメモリに記録した音声認識スコアが上位Nの候補の文字コード列を取得し、少なくとも一時的に所定の記録領域に記録する。かかる音声認識スコアが上位Nの候補を、Nベスト候補という。Nベスト候補を構成する各候補は、通常、文字コード列である。
信頼性算出部103は、候補取得部102が取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する。信頼性とは、ある単独の候補の音声スコアだけでは判断できないスコアのゆれ具合を別の候補との相対的な関係で正規化した数値である。信頼性とは、例えば、発話を単位とする信頼性尺度であり、一般化単語事後確率(GWPP)に基づく信頼性尺度を発話単位に拡張した信頼性尺度である。また、「GWPPに基づく信頼性尺度を発話単位に拡張する」とは、単語単位で算出されるGWPPの値(確率)の積を信頼性とすることである。この積とは、発話単位を構成する1以上の単語の1以上のGWPPの積である。なお、実装上は、確率の対数をとって和とすることが多い。信頼性算出部103は、通常、MPUやメモリ等から実現され得る。信頼性算出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部104は、信頼性算出部103が算出した各候補の信頼性に基づいて、各候補の一部または全部を出力する。出力部104は、例えば、信頼性の値が最も大きい候補のみを出力する。また、出力部104は、例えば、信頼性の値が所定の値(閾値)より大きい場合、当該信頼性と対になっている候補を出力する。また、出力部104は、2以上の候補を出力する場合、信頼性が大きい順に出力することが好適であるが、出力順序は問わない。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音声合成出力、外部の装置への送信等を含む概念である。出力部104は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部104は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
閾値保持手段1041は、予め閾値を保持している。この閾値は、音声認識結果として、最終的に候補を出力する場合の、信頼性の値(信頼性尺度)に対して、候補を残すまたは除くための閾値である。閾値保持手段1041は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。
判断手段1042は、各候補の信頼性が閾値と所定の関係にあるか否かを判断する。所定の関係とは、例えば、信頼性が閾値以上の関係、または信頼性が閾値より大きいという関係等である。判断手段1042は、通常、MPUやメモリ等から実現され得る。判断手段1042の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力手段1043は、判断手段1042で所定の関係にあると判断された候補のみ出力する出力する。出力手段1043は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力手段1043は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声処理装置の動作について図2のフローチャートを用いて説明する。
(ステップS201)音声受付部101は、音声を受け付けたか否かを判断する。音声を受け付ければステップS202に行き、音声を受け付けなければステップS201に戻る。
(ステップS202)候補取得部102は、ステップS201で受け付けた音声を発話単位に分割する。なお、音声を発話単位に分割する技術は公知技術であるので、説明を省略する。発話単位とは、文単位、2以上の文の区切り単位等である。
(ステップS203)音声認識手段1022は、カウンタiに1を代入する。
(ステップS204)音声認識手段1022は、ステップS202で区分した発話単位のうち、i番目の発話単位が存在するか否かを判断する。i番目の発話単位が存在すればステップS205に行き、i番目の発話単位が存在しなければステップS201に戻る。
(ステップS205)音声認識手段1022は、i番目の発話単位に対して、音声認識処理を行い、1以上の候補と当該候補に対する音声認識スコアを対で取得する。なお、音声認識処理を行い、1以上の候補と当該候補に対する音声認識スコアを取得する処理は公知技術であり、説明を省略する。また、音声認識のアルゴリズムは、問わない。また、候補は、ここでは、文字コード列である。
(ステップS206)音声認識手段1022は、ステップS205で取得した候補のうち、重複する候補を除去する。除去する候補は、同一の2以上の候補のうち、音声認識スコアが最高の候補以外の1以上の候補である。
(ステップS207)候補取得手段1023は、音声認識スコアをキーとして、降順に候補をソートする。
(ステップS208)候補取得手段1023は、候補数情報格納手段1021から候補数情報(N)を読み出す。
(ステップS209)候補取得手段1023は、ステップS207でソートした候補のうち、上位Nの候補(音声認識スコアが高いN個の候補)を取得する。
(ステップS210)信頼性算出部103は、カウンタjに1を代入する。
(ステップS211)信頼性算出部103は、ステップS209で取得したN−ベスト候補のうち、j番目の候補が存在するか否かを判断する。j番目の候補が存在すればステップS212に行き、j番目の候補が存在しなければステップS215に飛ぶ。
(ステップS212)信頼性算出部103は、j番目の候補に対して、GWPPに基づく信頼性を算出する。
(ステップS213)信頼性算出部103は、j番目の候補とステップS212で算出した信頼性を対にして、一時格納する。
(ステップS214)信頼性算出部103は、カウンタjを1、インクリメントし、ステップS211に戻る。
(ステップS215)判断手段1042は、閾値保持手段1041の閾値を読み出す。
(ステップS216)判断手段1042は、カウンタjに1を代入する。
(ステップS217)判断手段1042は、ステップS213で一時格納されたうちに候補で、j番目の候補が存在するか否かを判断する。j番目の候補が存在すればステップS218に行き、j番目の候補が存在しなければステップS221に行く。
(ステップS218)判断手段1042は、j番目の候補と対になっている信頼性が、閾値以上であるか否かを判断する。信頼性が閾値以上であればステップS219に行き、信頼性が閾値未満であればステップS220に行く。なお、ここで、判断手段1042は、j番目の候補と対になっている信頼性が、閾値より大きいか否かを判断しても良い。
(ステップS219)判断手段1042は、j番目の候補と信頼性を対にして一時格納する。
(ステップS220)判断手段1042は、カウンタjを1、インクリメントし、ステップS217に戻る。
(ステップS221)出力手段1043は、ステップS219で一時格納された信頼性をキーとして、降順に1以上の候補をソートする。
(ステップS222)出力手段1043は、ステップS221でソートした順に、1以上の候補を出力する。
(ステップS223)出力手段1043は、カウンタiを1、インクリメントし、ステップS204に戻る。
なお、図2のフローチャートのステップS221において、候補をソートせずに、出力しても良い。
また、図2のフローチャートにおいて、ステップS213における候補等の一時格納を行う前に、ステップS218における判断を行っても良い。
また、図2のフローチャートにおいて、ステップS218における判断(閾値と比較をすることによる判断)を行わずに、信頼性の大きい上位所定数の候補のみを出力対象としても良い。
また、図2のフローチャートにおいて、ステップS221におけるソート処理は必須ではないことは言うまでもない。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声処理装置の具体的な動作について説明する。
まず、音声の発声者が「かわのじゃけっとではなくてめんのじゃけっとをさがしています。いろはべーじゅがいいんです。・・・」とマイク305を用いて音声入力する、とする。
次に、音声受付部101は、発声者がマイク305から入力した音声を受け付ける。
次に、候補取得部102は、受け付けた音声を発話単位に分割する。そして、候補取得部102は、まず、第一番目の発話単位「かわのじゃけっとではなくてめんのじゃけっとをさがしています。いろはべーじゅがいいんです。」を取得する。なお、発話単位をいかに分割するかは問わない。
次に、音声認識手段1022は、音声認識処理を行い、1以上の候補と当該候補に対する音声認識スコアを対で取得する。そして、音声認識手段1022は、取得した候補のうち、重複する候補を除去する。そして、音声認識手段1022が取得した候補、および音声認識スコアの例を図3に示す。
次に、候補取得手段1023は、音声認識スコアをキーとして、降順に候補をソートし、N−ベスト候補を取得する。かかるN−ベスト候補を図4の「N―ベスト候補」の属性値に示す。ここで、「N」は、3である、とする。
次に、信頼性算出部103は、図4の3つの候補に対して、一般化単語事後確率(GWPP)に基づく信頼性を算出する。そして、信頼性算出部103は、図4に示す信頼性尺度管理表を得る。
次に、判断手段1042は、閾値保持手段1041の閾値「0.09」を読み出す。そして、図4の「ID=1」「ID=2」「ID=3」の各候補と対になる信頼性と、閾値「0.09」を比較し、信頼性が閾値「0.09」より大きい場合、当該信頼性と対になる候補を取得する。ここでは、「ID=2」の候補「革のジャケットではなくて綿のジャケットを探しています。色はベージュ色が良いんです」のみを取得する。そして、出力手段1043は、「ID=2」の候補を出力する。
なお、本音声処理装置は、上記の処理を、受け付けた発話単位分だけ繰り返し行う。
また、本音声処理装置において、閾値保持手段1041の閾値を変更することにより、出力する候補数が変わることは言うまでもない。図5は、閾値を変更した場合の出力候補数の変化を示す図である。図5は、発話あたりで平均した出力候補数(Number of Candidates)を横軸に、発話認識率(Utterance Accuracy)を縦軸に取り、その関係をグラフ化したものである。図5において、本音声処理装置における処理結果が、「Proposed Method」の曲線である。また、図5において、もとのN−bestにおける出力候補数Nと累積の発話認識率の関係(Original N−bestの曲線)もあわせて示す。
さらに、本音声処理装置において、閾値「0.09」の場合に,平均出力候補数が2.99となり、発話認識率は72.9%が得られた。一方、上述した非特許文献2の従来技術において、第3位までのN−bestにおける累積発話認識率は71.5%であった。
以上、本実施の形態によれば、音声認識結果をユーザへ効率的に提示することができる。具体的には、正解密度の高いN−best候補を選択できる。
また、本実施の形態によれば、音声認識結果から絞り込んだ候補に対して、一般化単語事後確率(GWPP)等を用いた処理により信頼性を算出し、正解密度の高いN−best候補を選択できた。したがって、全音声認識結果に対して信頼性を算出することと比較して、本音声処理装置において、非常に高速に正解密度の高いN−best候補を選択できる。
なお、本実施の形態によれば、信頼性算出部103は、例えば、一般化単語事後確率(GWPP)に基づいて信頼性を算出したが、他のアルゴリズムで信頼性を算出しても良い。他のアルゴリズムとは、例えば、発話単位のエントロピーを算出し、当該エントリピーを信頼性とするアルゴリズムである。その他、信頼性算出のアルゴリズムは問わない。
また、本実施の形態によれば、音声認識手段1022における音声認識処理のアルゴリズムは問わないことは言うまでもない。ただし、候補取得部102は、2以上の候補を出力することは必要である。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を受け付ける音声受付ステップと、前記音声に対して音声認識し、予め決められた数の音声認識結果の候補であるNベスト候補を取得する候補取得ステップと、前記候補取得ステップで取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する信頼性算出ステップと、前記信頼性算出ステップで算出した各候補の信頼性に基づいて、各候補の一部または全部を出力する出力ステップを実行させるためのプログラム、である。
また、上記プログラムにおける出力ステップは、前記各候補の信頼性が予め格納している閾値と所定の関係にあるか否かを判断する判断ステップと、前記判断ステップで所定の関係にあると判断された候補のみ出力する出力する出力ステップを具備することは好適である。
(実施の形態2)
図6は、本実施の形態における音声処理装置のブロック図である。
音声処理装置は、音声受付部101、候補取得部102、信頼性算出部103、出力部104を具備する。候補取得部102は、候補数情報格納手段1021、音声認識手段1022、候補取得手段1023、翻訳出力部601を具備する。なお、本音声処理装置は、例えば、一の携帯電話の音声を受け付け、他の携帯電話へ音声出力する。かかるシステムにより、自動翻訳電話が実現できる。
翻訳出力部601は、出力部104が出力した候補のうちの所定の条件を満たす候補に対して、翻訳処理を行い、受け付けた音声の言語と異なる言語に変換し、出力する。翻訳出力部601は、受け付けた音声の言語と異なる言語に変換した結果を音声合成し、音声出力しても良い。なお、候補は、ここでは、文字列コードからなる文章である。また、例えば、日本語の文章を英語などの外国語に翻訳する技術は、公知技術である。また、音声合成し、音声出力する技術も公知技術である。出力とは、ディスプレイへの表示、プリンタへの印字、音声合成出力、外部の装置への送信等を含む概念である。翻訳出力部601は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。翻訳出力601部は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。また、ここでの出力部104は、候補を翻訳出力部601に渡す処理を行い、通常、出力デバイスへの出力は行わない、とする。
なお、音声処理装置は、出力部104が取得した候補(例えば、日本語)のうち最高点の信頼性を有する候補を、翻訳出力部601は、目的の言語(例えば、英語)に翻訳し、当該翻訳した候補(文章)を音声合成する処理を行う。そして、本音声処理装置は、翻訳および音声合成出力を行う処理以外の処理は、図2のフローチャートで説明した音声処理装置の処理と同様であるので、詳細な説明を省略する。
以下、本実施の形態における音声処理装置の具体的な動作について説明する。
まず、音声の発声者が「かわのじゃけっとではなくてめんのじゃけっとをさがしています。いろはべーじゅがいいんです。・・・」と一の携帯電話から音声入力する、とする。
そして、実施の形態1における具体例の説明で述べた処理により、出力部104は、「革のジャケットではなくて綿のジャケットを探しています。色はベージュ色が良いんです」のみを取得し、翻訳出力部601に渡す。
次に、翻訳出力部601は、「革のジャケットではなくて綿のジャケットを探しています。色はベージュ色が良いんです」を英語に翻訳し、「I look for a jacket of cotton not a leather jacket. As for the color, beige is good.」を得る。そして、翻訳出力部601は、英文「I look for a jacket of cotton not a leather jacket. As for the color, beige is good.」を、音声合成出力する。なお、日英機械翻訳、および音声合成の処理は公知技術である。
以上、本実施の形態によれば、一のユーザが入力した音声の音声認識結果を他のユーザへ、翻訳して、音声出力により、効率的に提示することができる。
なお、本実施の形態によれば、翻訳出力部601は、翻訳処理と音声合成出力処理を行ったが、翻訳処理を行った結果を、モニタ304やプリンタ等に出力する構成でも良い。
また、本実施の形態によれば、翻訳処理は、日英翻訳であったが、原言語、目的言語は問わない。
さらに、本実施の形態によれば、翻訳処理や音声合成処理のアルゴリズムは問わないことは言うまでもない。
さらに、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を受け付ける音声受付ステップと、前記音声に対して音声認識し、予め決められた数の音声認識結果の候補であるNベスト候補を取得する候補取得ステップと、前記候補取得ステップで取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する信頼性算出ステップと、前記信頼性算出ステップで算出した各候補の信頼性に基づいて、各候補の一部または全部を取得する出力ステップと、前記出力ステップで取得した候補のうちの所定の条件を満たす候補に対して、翻訳処理を行い、受け付けた音声の言語と異なる言語に変換し、出力する翻訳出力ステップを実行させるためのプログラム、である。
また、上記プログラムにおいて、前記翻訳出力ステップは、前記受け付けた音声の言語と異なる言語に変換した結果を音声合成し、音声出力することは好適である。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、図7は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図7は、このコンピュータシステム300の概観図であり、図8は、システム300のブロック図である。
図7において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、マイク305と、スピーカー306とを含む。
図8において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の音声処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の音声処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音声処理装置は、音声認識結果をユーザへ効率的に提示することができるという効果を有し、音声翻訳システム等として有用である。
実施の形態1における音声処理装置のブロック図 同音声処理装置の動作について説明するフローチャート 同候補および音声認識スコアの例を示す図 同N−ベスト候補管理表を示す図 同閾値を変更した場合の出力候補数の変化を示す図 実施の形態2における音声処理装置のブロック図 同音声処理装置を実現するコンピュータの外観を示す図 同コンピュータシステムのブロック図
符号の説明
101 音声受付部
102 候補取得部
103 信頼性算出部
104 出力部
601 翻訳出力部
1021 候補数情報格納手段
1022 音声認識手段
1023 候補取得手段
1041 閾値保持手段
1042 判断手段
1043 出力手段

Claims (4)

  1. 音声を受け付ける音声受付部と、
    前記音声に対して音声認識し、予め決められた数の音声認識結果の候補であるNベスト候補を取得する候補取得部と、
    前記候補取得部が取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する信頼性算出部と、
    前記信頼性算出部が算出した各候補の信頼性に基づいて、各候補の一部または全部を出力する出力部を具備する音声処理装置。
  2. 前記出力部は、
    予め閾値を保持している閾値保持手段と、
    前記各候補の信頼性が前記閾値と所定の関係にあるか否かを判断する判断手段と、
    前記判断手段が所定の関係にあると判断した候補のみ出力する出力手段を具備する請求項1記載の音声処理装置。
  3. 前記出力部が出力した候補のうちの所定の条件を満たす候補に対して、翻訳処理を行い、受け付けた音声の言語と異なる言語に変換し、出力する翻訳出力部をさらに具備する請求項1または請求項2記載の音声処理装置。
  4. コンピュータに、
    音声を受け付ける音声受付ステップと、
    前記音声に対して音声認識し、予め決められた数の音声認識結果の候補であるNベスト候補を取得する候補取得ステップと、
    前記候補取得ステップで取得したNベスト候補のそれぞれの候補に対して、信頼性を算出する信頼性算出ステップと、
    前記信頼性算出ステップで算出した各候補の信頼性に基づいて、各候補の一部または全部を出力する出力ステップを実行させるためのプログラム。
JP2005266770A 2005-09-14 2005-09-14 音声処理装置、およびプログラム Pending JP2007079122A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005266770A JP2007079122A (ja) 2005-09-14 2005-09-14 音声処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005266770A JP2007079122A (ja) 2005-09-14 2005-09-14 音声処理装置、およびプログラム

Publications (1)

Publication Number Publication Date
JP2007079122A true JP2007079122A (ja) 2007-03-29

Family

ID=37939499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005266770A Pending JP2007079122A (ja) 2005-09-14 2005-09-14 音声処理装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP2007079122A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145548A (ja) * 2007-12-13 2009-07-02 Mitsubishi Electric Corp 音声検索装置
JP2015060127A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声同時処理装置、方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145548A (ja) * 2007-12-13 2009-07-02 Mitsubishi Electric Corp 音声検索装置
JP2015060127A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声同時処理装置、方法およびプログラム
US9672820B2 (en) 2013-09-19 2017-06-06 Kabushiki Kaisha Toshiba Simultaneous speech processing apparatus and method

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
CA2614840C (en) System, program, and control method for speech synthesis
JP4762103B2 (ja) 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置
JP2003241790A (ja) 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
JP7110055B2 (ja) 音声合成システム、及び音声合成装置
CN112927677B (zh) 语音合成方法和装置
JP4859125B2 (ja) 発音評定装置、およびプログラム
JP2007079122A (ja) 音声処理装置、およびプログラム
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
JP6810363B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
JP7409475B2 (ja) 発話終端検出装置、制御方法、及びプログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
CN112951204B (zh) 语音合成方法和装置
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
JP2009058671A (ja) 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造
JP2007127738A (ja) 音声認識装置、およびプログラム
JP5325086B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
CN115985305A (zh) 一种语音识别方法、装置、设备及存储介质