JP2011248107A - 音声認識結果検索方法とその装置とプログラム - Google Patents

音声認識結果検索方法とその装置とプログラム Download PDF

Info

Publication number
JP2011248107A
JP2011248107A JP2010121413A JP2010121413A JP2011248107A JP 2011248107 A JP2011248107 A JP 2011248107A JP 2010121413 A JP2010121413 A JP 2010121413A JP 2010121413 A JP2010121413 A JP 2010121413A JP 2011248107 A JP2011248107 A JP 2011248107A
Authority
JP
Japan
Prior art keywords
document
voice
word
recognition
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010121413A
Other languages
English (en)
Inventor
Taichi Asami
太一 浅見
Satoru Kobashigawa
哲 小橋川
Tsubasa Shinozaki
翼 篠崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010121413A priority Critical patent/JP2011248107A/ja
Publication of JP2011248107A publication Critical patent/JP2011248107A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声ファイル毎に信頼度を付与することで品質の悪い音声認識結果を検索対象から除外する。
【解決手段】この発明の音声認識結果検索方法は、音声認識過程と、音声文書認識信頼度計算過程と、文書DB登録過程と、文書検索過程と、文書出力過程とを備え、音声文書認識信頼度計算過程で、単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算し、文書DB登録過程は、音声ファイル単位の音声認識結果と文書認識信頼度とを組として文書DBに登録する。そして、文書検索過程で、音声認識結果と文書認識信頼度に基づいて文書DBを検索した音声認識結果を文書出力部に出力する。文書出力過程は、文書検索過程で検索した音声認識結果を外部に出力する。
【選択図】図2

Description

この発明は、複数の音声ファイルを音声認識した複数のテキスト文書から、特定のテキストを検索する音声認識結果検索方法と、その装置とプログラムに関する。
従来、複数の音声ファイルを音声認識したテキストから所望の文書を検索するものとしては、特許文献1に開示された音声文書検索装置900が知られている(図11)。図11を参照して、従来の音声文書検索装置900の動作を簡単に説明する。
音声文書検索装置900は、音声認識部2、単語対応付け部3、単語対格納部4、単語候補拡張部5、単語対テーブル6、文書ベクトル生成部7、クエリ入力部8、クエリベクトル生成部9、類似度計算部10、出力部11、を具備する。
単語対応付け部3は、音声認識部2で音声認識した音声認識結果の単語と、音声から書き起こしたテキストの単語(テキスト対応単語)との対応関係を抽出する。単語対格納部4は、音声認識単語と、それに対応するテキスト対応単語の対が単語対テーブル6に格納済みである場合はその出現頻度を更新し、そうでない場合には新たに当該音声認識単語に対応するテキスト対応単語の対を単語対テーブル6に格納する。
単語候補拡張部5は、単語対テーブル6に格納されているテキスト対応単語を抽出し、それらのテキスト対応単語を音声文書の音声認識正解単語候補に追加する。文書ベクトル生成部7は、その音声認識正解単語候補の集合に基づいて文書ベクトルを作成する。
クエリベクトル生成部9は、クエリ(query)入力部8に入力されるユーザの検索質問に基づいてクエリベクトルを生成する。類似度計算部10は、クエリベクトルと文書ベクトルとの類似度を計算する。出力部11は、類似度の高い順に文書ベクトルが指し示す音声文書名を検索結果として出力する。
このように音声文書検索装置900は、音声認識誤りに対する正解を事前に求め、音声文書の音声認識結果に対する全文検索時、認識誤りに対する正解で音声文書を拡張してクエリとの類似度を高めるものである。
特開2004−348552号公報
音声認識処理においては、音声の収録環境や話者の違いにより、各々の音声文書の音声認識精度は大きく異なり、音声認識結果の品質が変動する。大量に蓄積されたその音声認識結果を文書検索する際に、音声認識誤りによって湧き出した誤認識単語が、検索ワードに該当してしまう場合がある。その場合、従来の方法では誤認識単語に適切な正解を対応付けることが難しくなり、所望の正しい文書が検索できなくなる課題がある。
この発明は、このような課題に鑑みてなされたものであり、誤認識単語が検索ワードに該当する確率を減らした音声認識結果検索方法と、その装置とプログラムを提供することを目的とする。
この発明の音声認識結果検索方法は、音声認識過程と、音声文書認識信頼度計算過程と、文書DB登録過程と、文書検索過程と、文書出力過程と、を備える。音声認識過程は、入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する。音声文書認識信頼度計算過程は、単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算する。文書DB登録過程は、音声ファイル単位の音声認識結果と文書認識信頼度とを組として文書DBに登録する。文書検索過程は、外部から入力される音声認識結果の検索ワードと文書認識信頼度の検索条件に基づいて文書DBを検索した音声認識結果を文書出力部に出力する。文書出力過程は、文書検索過程で検索した音声認識結果を外部に出力する。
この発明の音声認識結果検索方法は、音声ファイルを音声認識した音声認識結果毎に文書認識信頼度を付与する。そして、その文書認識信頼度の値に応じて音声認識結果を検索することで、品質の悪い音声認識結果を検索対象から除外することができる。その結果、誤認識単語が検索ワードに該当する確率を減少させることができる。
この発明の音声認識結果検索装置100の機能構成例を示す図。 音声認識結果検索装置100の動作フローを示す図。 Nベスト候補と単語認識信頼度について説明する図。 音声文書認識信頼度計算部30の機能構成例を示す図。 音声文書認識信頼度計算部30の動作フローを示す図。 音声認識部20が出力する単語wn、単語認識信頼度C(wn)の例を示す図。 この発明の音声認識結果検索装置200の機能構成例を示す図。 音声認識結果検索装置200の動作フローを示す図。 この発明の音声認識結果検索装置300の機能構成例を示す図。 音声認識結果検索装置300の動作フローを示す図。 特許文献1に開示された音声文書検索装置900の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音声認識結果検索装置100の機能構成例を示す。その動作フローを図2に示す。音声認識結果検索装置100は、音声認識部20と、音声文書認識信頼度計算部30と、文書DB登録部40と、文書DB50と、文書検索部60と、文書出力部70と、制御部80と、を具備する。音声認識結果検索装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識部20は、入力される音声ファイルを音声認識した単語毎に単語認識信頼度を付与した音声認識結果を出力する(ステップS20)。音声認識部20は、図示しない内部の音響分析部によって、音声ファイルを、数十msecのフレームと呼ばれる単位でLPCケプストラム、MFCC、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位N位までのNベスト候補が、単語認識信頼度と共に音声認識結果として出力される。
ここで、図3を参照してNベスト候補と単語認識信頼度について説明する。なお、Nベスト候補と単語認識信頼度については従来技術である。単語認識信頼度については、例えば、参考文献1(“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”政瀧浩和他、NTT技術ジャーナル 2006.11)に記載されている。
図3の横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたNベスト候補である。スコアとは探索時の尤度のことである。
単語認識信頼度は、フレームt*において単語w**(*は任意の整数)と異なる単語がNベスト候補中に存在する場合、単語w**のフレームt*におけるスコアと対立候補単語のフレームt*における次の順位のスコアとの間のスコア差によって与えられる。図3に示す例では、フレームt1〜t4の音響特徴パラメータ系列で探索された第1位候補の単語w11(11は第1候補の1番目の単語であることを表す)の単語認識信頼度は、対向する単語が第3位候補の単語w31と第2位候補の単語w21であるので、それぞれのスコア差(●)の合計をフレーム数で除した値が単語認識信頼度となる。対立候補が存在しない単語w13については、予め決められた固定値(○)が用いられて単語認識信頼度となる。この単語認識信頼度が候補毎に累積されて単語列の認識信頼度となる。
音声文書認識信頼度計算部30は、単語毎の単語認識信頼度及び単語列の認識信頼度から音声ファイル単位の音声認識結果と文書認識信頼度を計算する(ステップS30)。文書認識信頼度について詳しくは後述する。
文書DB登録部40は、音声認識結果と文書認識信頼度とを組として文書DB50に登録する(ステップS40)。音声文書認識信頼度計算部30は、破線で示すように音声認識結果と文書認識信頼度との組みを、文書出力部70に出力するようにしても良い。文書出力部70は、表示手段、印刷手段、或いは取り外しが可能な記録媒体の何れでも良い。
文書検索部60は、外部から入力される音声認識結果の検索ワードと文書認識信頼度の検索条件に基づいて文書DBを検索した音声認識結果を文書出力部に出力する。(ステップS60)。文書出力部70は、文書検索部60が検索した音声認識結果を外部に出力する(ステップS70)。制御部80は、上記した各部が全体として音声認識結果検索装置100として動作するように制御する。
音声認識結果検索装置100は、音声ファイル毎の音声認識結果に文書認識信頼度を付与する。そして、文書認識信頼度に基づいて音声認識結果を検索するので、品質の悪い音声認識結果を検索対象から除外することができ、誤認識単語が検索ワードに該当する確率を減少させることが可能になる。
図4に音声文書認識信頼度計算部30の機能構成を示して更に詳しく動作を説明する。その動作フローを図5に示す。音声文書認識信頼度計算部30は、単語時間長取得手段31と、正規化解除手段32と、音声文書総時間長計算手段33と、信頼度累積手段34と、音声文書認識信頼度算出手段35と、を備える。
単語時間長取得手段31は、音声認識部20が出力する単語の単語時間長を求める(ステップS31)。単語時間長を求める前に、単語時間長取得手段31は、音声ファイルの信頼度合計値C(W)と音声ファイルの総時間長WDを0に初期化する(ステップS80)。ステップS80〜S82は、図1に示した制御部80が処理する。
図6に、音声認識部20が出力する単語wn、単語認識信頼度C(wn)の例を示す。ここでは、音声ファイルが1個のNベスト候補から成る例で説明する。つまり添え字は一桁で説明する。例えば、単語w1は名詞「本日」であり、単語認識信頼度C(wn)は9891であり、その始端時刻(wdnsFn)と終端時刻(wdneFn)は0.00−0.98[秒]である。単語認識信頼度C(wn)の値は、マイナスの値もあり得る。図6の例では、「おいたわしい」がそれに該当する。第1位候補の単語のスコアが、下位の候補の単語のスコアよりも小さい場合に単語認識信頼度C(wn)はマイナスとなる。この場合、第1位候補のその単語の信頼度は相当低いことを意味する。
単語時間長取得手段31は、単語w1の終端時刻から始端時刻を引いたその単語時間長wd1を、0.98[秒]若しくは、フレーム時間を例えば10msecとした場合、98フレームとして取得する(ステップS31)。
正規化解除手段32は、単語認識信頼度C(w1)=9891に単語時間長wd1を乗じた単語信頼度wcを計算する(ステップS32)。正規化解除手段32は、フレーム数で正規化されていた単語認識信頼度の正規化を解除する働きをする。
信頼度累積手段34は、正規化が解除された単語信頼度wcを累積した単語信頼度累積値C(W)を求める(ステップS34)音声文書総時間長計算手段33は、単語時間長取得手段31で取得した単語時間長wd*を音声ファイル全体で累積した音声文書総時間長WDを計算する(ステップS33)。上記したステップS31〜S33の処理は、音声ファイルの全ての単語wnについて処理されるまで、単語を更新(ステップS82)しながら繰り返される(ステップS81のno)。
音声文書認識信頼度算出手段35は、単語信頼度累積値C(W)を音声文書総時間長WDで除した音声ファイルの文書認識信頼度docCを算出する(ステップS35)。音声文書認識信頼度算出手段35は、音声ファイルのフレーム当たりの認識信頼度を求めることになる。この文書認識信頼度docCは、音声ファイルの音声認識結果の品質を表す指標となる。
文書DB登録部40は、その文書認識信頼度docCと音声認識結果とを組として文書DB50に登録する。文書検索部60は、外部から入力される音声認識結果の検索ワードと文書認識信頼度の検索条件に該当する音声認識結果を検索して文書出力部70に出力する。
検索条件を、例えば、文書認識信頼度docCの下位50%を除去するように設定すれば、文書DB50に登録された音声認識結果の半分が、文書出力部70に出力されなくなる。また、外部から与える検索条件は、文書認識信頼度docCの値を閾値として与えるようにしても良い。その場合の文書検索部60′は、外部から入力される文書認識信頼度docCの値を閾値として、その閾値以下の音声認識結果を検索文書の対象外とする。そして、その閾値以上の音声認識結果の中から検索条件に合う音声認識結果を文書出力部70に出力する。
図7に、この発明の音声認識結果検索装置200の機能構成例を示す。その動作フローを図8に示す。音声認識結果検索装置200は、音声認識結果検索装置100の文書検索部60に代えて文書定期検索部65を具備する点で異なる。
文書定期検索部65は、外部から入力される音声認識結果の検索ワードと文書認識信頼度とによる検索条件に従って、定期的に文書DBを検索して検索条件に合う音声認識結果を文書出力部60に出力する(ステップS65)。定期的とは、一時間〜数時間、午前、午後、一日や一週間といった期間である。
音声認識結果検索装置200は、例えば、コールセンター等に音声認識結果検索装置200を設けた場合に、所定の期間内の特定の話題に関する所定以上の品質の音声認識結果を、自動的に収集するのに有効である。
図9に、この発明の音声認識結果検索装置300の機能構成例を示す。その動作フローを図10に示す。音声認識結果検索装置300は、音声チャネル分割部91と、音声認識部92と、音声文書認識信頼度計算部93と、音声認識結果マージ部94と、文書DB登録部95と、文書DB40と、文書検索部96と、文書出力部70と、制御部97と、を具備する。文書DB40と文書出力部70とは、音声認識結果検索装置100と同じものである。
音声チャネル分割部91は、複数チャネルから成る音声ファイルを入力として、その音声ファイルを音声チャネル毎に分割する(ステップS91)。音声チャネルとは、例えば、送話チャネルや受話チャネル、ステレオの右チャネルや左チャネル等のことである。
音声認識部92は、音声チャネル毎の音声ファイルを入力として、単語毎に単語認識信頼度を付与した音声認識結果を音声チャネル毎に出力する(ステップS92)。音声文書認識信頼度計算部93は、単語認識信頼度から音声ファイル全体の音声チャネル毎の文書認識信頼度を計算する(ステップS93)。
音声認識結果マージ部94は、音声認識部92が出力する音声チャネル毎の音声認識結果を併合して一つの音声認識結果にする(ステップS94)。文書DB登録部95は、一つに併合された音声認識結果と、それ対応する音声チャネル毎の文書認識信頼度とを組として文書DBに登録する(ステップS95)。
文書検索部96は、外部から入力される音声認識結果の検索ワードと文書認識信頼度との検索条件に従って、音声チャネル毎の文書認識信頼度を評価し、その両方の認識信頼度の値が検索条件に合致する音声認識結果を文書出力部70に出力する(ステップS96)。つまり、文書検索部96は音声チャネル毎の文書認識信頼度を評価するので、検索された音声認識結果は、何れのチャネルも品質は高いものになる。また、文書検索部96は、一方のチャネルの文書認識信頼度の値が検索条件を満たさなければ、他方のチャネルの文書認識信頼度を評価することをしないので、文書検索を省力化することもできる。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
    上記単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算する音声文書認識信頼度計算過程と、
    音声ファイル単位の上記音声認識結果と上記文書認識信頼度とを組として文書DBに登録する文書DB登録過程と、
    上記音声認識結果の検索ワードと上記文書認識信頼度の検索条件に基づいて上記文書DBを検索した音声認識結果を文書出力部に出力する文書検索過程と、
    文書検索過程で検索した上記音声認識結果を外部に出力する文書出力過程と、
    を備える音声認識結果検索方法。
  2. 請求項1に記載した音声認識結果検索方法において、
    上記音声文書認識信頼度計算過程は、
    単語時間長取得手段が、上記音声認識部が出力する単語の時間長である単語時間長を求める単語時間長取得ステップと、
    正規化解除手段が、上記単語認識信頼度に上記単語時間長を乗じた単語信頼度を計算する正規化解除ステップと、
    信頼度累積手段が、上記単語信頼度を累積した単語信頼度累積値を求める信頼度累積ステップと、
    音声文書総時間長計算手段が、音声ファイル全体の上記単語時間長を累積した音声文書総時間長を計算する音声文書総時間長計算ステップと、
    音声文書認識信頼度算出手段が、上記単語信頼度累積値を上記音声文書総時間長で除した音声文書の認識信頼度を算出する音声文書認識信頼度算出ステップと、
    を含むことを特徴とする音声認識結果検索方法。
  3. 請求項1又は2に記載した音声認識結果検索方法において、
    上記文書検索過程は、
    外部から入力される文書認識信頼度閾値を基準として、その文書認識信頼度閾値以下の音声認識結果を除去する過程であることを特徴とする音声認識結果検索方法。
  4. 入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
    上記単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算する音声文書認識信頼度計算過程と、
    音声ファイル単位の音声認識結果と文書認識信頼度とを組として文書DBに登録する文書DB登録過程と、
    外部から入力される検索条件に従って定期的に文書DBを検索した音声認識結果を文書出力部に出力する文書定期検索過程と、
    上記検索した音声認識結果を外部に出力する文書出力過程と、
    を備える音声認識結果検索方法。
  5. 音声チャネル分割部が、複数チャネルから成る音声ファイルを入力として、その音声文書を音声チャネル毎に分割する音声チャネル分割過程と、
    音声認識部が、上記音声チャネル毎の音声文書を入力として、単語毎に単語認識信頼度を付与した音声認識結果を音声チャネル毎に出力する音声認識過程と、
    音声文書認識信頼度計算部が、上記単語認識信頼度から音声ファイル全体の音声チャネル毎の音声文書認識信頼度を計算する音声文書認識信頼度計算過程と、
    音声認識結果マージ部が、上記音声認識部が出力する音声チャネル毎の音声認識結果を併合して一つの音声認識結果にする音声認識結果マージ過程と、
    音声文書DB登録部が、上記音声チャネル毎の音声文書認識信頼度と対応する上記音声認識結果とを組として音声文書DBに登録する文書DB登録過程と、
    文書検索部が、外部から入力される検索条件に従って、上記音声チャネル毎の音声文書認識信頼度を評価し、その両方の音声文書認識信頼度の値が上記検索条件に合致する音声認識結果を検索して文書出力部に出力する文書検索過程と、
    文書出力部が、その音声認識結果を外部に出力する文書出力過程と、
    を備える音声認識結果検索方法。
  6. 入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度が付与された音声認識結果を出力する音声認識部と、
    上記単語毎の単語認識信頼度から上記音声ファイル全体の文書認識信頼度を計算する音声文書認識信頼度計算部と、
    上記音声ファイル単位の音声認識結果と上記文書認識信頼度とを組として文書DBに登録する文書DB登録部と、
    上記音声認識結果の検索ワードと文書認識信頼度の検索条件に基づいて上記文書DBを検索した音声認識結果を文書出力部に出力する文書検索部と、
    上記検索した音声認識結果を外部に出力する文書出力部と、
    を具備する音声認識結果検索装置。
  7. 請求項1乃至5の何れかに記載した音声認識結果検索方法を、コンピュータに実行させるための音声認識結果検索方法プログラム。
JP2010121413A 2010-05-27 2010-05-27 音声認識結果検索方法とその装置とプログラム Pending JP2011248107A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010121413A JP2011248107A (ja) 2010-05-27 2010-05-27 音声認識結果検索方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010121413A JP2011248107A (ja) 2010-05-27 2010-05-27 音声認識結果検索方法とその装置とプログラム

Publications (1)

Publication Number Publication Date
JP2011248107A true JP2011248107A (ja) 2011-12-08

Family

ID=45413453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010121413A Pending JP2011248107A (ja) 2010-05-27 2010-05-27 音声認識結果検索方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP2011248107A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
KR101800293B1 (ko) * 2016-05-12 2017-11-22 주식회사 솔루게이트 음성인식 신뢰도 판단 시스템
CN108847219A (zh) * 2018-05-25 2018-11-20 四川斐讯全智信息技术有限公司 一种唤醒词预设置信度阈值调节方法及系统
CN110968245A (zh) * 2019-12-05 2020-04-07 深圳乐华高科实业有限公司 一种透过语音控制office办公软件的操作方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
JP2015114963A (ja) * 2013-12-13 2015-06-22 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN104715005B (zh) * 2013-12-13 2018-02-16 株式会社东芝 信息处理设备以及方法
KR101800293B1 (ko) * 2016-05-12 2017-11-22 주식회사 솔루게이트 음성인식 신뢰도 판단 시스템
CN108847219A (zh) * 2018-05-25 2018-11-20 四川斐讯全智信息技术有限公司 一种唤醒词预设置信度阈值调节方法及系统
CN108847219B (zh) * 2018-05-25 2020-12-25 台州智奥通信设备有限公司 一种唤醒词预设置信度阈值调节方法及系统
CN110968245A (zh) * 2019-12-05 2020-04-07 深圳乐华高科实业有限公司 一种透过语音控制office办公软件的操作方法
CN110968245B (zh) * 2019-12-05 2023-11-10 深圳乐华高科实业有限公司 一种透过语音控制office办公软件的操作方法

Similar Documents

Publication Publication Date Title
US9245523B2 (en) Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
JP6326490B2 (ja) 録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法
US8831947B2 (en) Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US8694317B2 (en) Methods and apparatus relating to searching of spoken audio data
JP5653709B2 (ja) 質問応答システム
US20140278390A1 (en) Classifier-based system combination for spoken term detection
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
US20080270138A1 (en) Audio content search engine
US20080270344A1 (en) Rich media content search engine
US20080270110A1 (en) Automatic speech recognition with textual content input
US20160275945A1 (en) System and method for phonetic search over speech recordings
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
WO2003010754A1 (fr) Systeme de recherche a entree vocale
KR20080070445A (ko) 음성 인식 기반의 음악 검색 방법 및 장치
JP2011185997A (ja) 音声検索装置、音声検索方法、プログラム及び記録媒体
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
US10417345B1 (en) Providing customer service agents with customer-personalized result of spoken language intent
JP2015125499A (ja) 音声通訳装置、音声通訳方法及び音声通訳プログラム
Moyal et al. Phonetic search methods for large speech databases
JP2011248107A (ja) 音声認識結果検索方法とその装置とプログラム
US20110119052A1 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP5723711B2 (ja) 音声認識装置および音声認識プログラム
US11582174B1 (en) Messaging content data storage
Norouzian et al. An approach for efficient open vocabulary spoken term detection
WO2014155652A1 (ja) 話者検索システム、プログラム