JP2017026808A - 音声認識装置、音声認識方法、プログラム - Google Patents

音声認識装置、音声認識方法、プログラム Download PDF

Info

Publication number
JP2017026808A
JP2017026808A JP2015145011A JP2015145011A JP2017026808A JP 2017026808 A JP2017026808 A JP 2017026808A JP 2015145011 A JP2015145011 A JP 2015145011A JP 2015145011 A JP2015145011 A JP 2015145011A JP 2017026808 A JP2017026808 A JP 2017026808A
Authority
JP
Japan
Prior art keywords
arc
confusion
speech
speech recognition
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015145011A
Other languages
English (en)
Other versions
JP6486789B2 (ja
Inventor
孝 中村
Takashi Nakamura
孝 中村
澄宇 阪内
Sumitaka Sakauchi
澄宇 阪内
学 岡本
Manabu Okamoto
学 岡本
孝典 芦原
Takanori Ashihara
孝典 芦原
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015145011A priority Critical patent/JP6486789B2/ja
Publication of JP2017026808A publication Critical patent/JP2017026808A/ja
Application granted granted Critical
Publication of JP6486789B2 publication Critical patent/JP6486789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】バリエーションが多く、かつ外れ値を排除した音声認識結果集合を生成できる音声認識装置を提供する。
【解決手段】音声特徴量または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する音声認識部11と、音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成するコンフュージョンネットワーク生成部12と、コンフュージョンセット内の各アークについて、文脈一致性および概念類似性を算出し、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替えるコンフュージョンネットワーク操作部13を含む。
【選択図】図1

Description

本発明は、音声認識を実行して取得した複数の音声認識結果を好適な順序に並び替えて表示する音声認識装置、音声認識方法、プログラムに関する。
従来、メモアプリや音声検索などにおいて、音声認識結果の一覧を生成し、これをユーザに提示して正解を選択させることはよく行われている(例えば非特許文献1、2)。同様に、音声認識結果のリスコアリングや絞り込みもよく行われている(例えば非特許文献3)。
株式会社イーエスケイ、"音声入力の使い方"、[online]、平成25年4月14日、株式会社イーエスケイ、[平成27年7月10日検索]、インターネット<URL: http://hata-nikki.jp/wp/wp-content/uploads/2013/04/onsei_1304.pdf> FUJIYAMA VOLCANO、"声でラクラク文字入力!音声入力まっしゅ"、[online]、平成25年4月9日、FUJIYAMA VOLCANO、[平成27年7月10日検索]、インターネット<URL: https://play.google.com/store/apps/details?id=jp.fujivol.recmash > 小林彰夫、外5名、"単語誤り最小化に基づく識別的リスコアリングによる音声認識"、[online]、平成24年1月、NHK技研、[平成27年7月10日検索]、インターネット<URL: http://www.nhk.or.jp/strl/publica/rd/rd131/PDF/P28-39.pdf>
非特許文献1、2では正解の候補として音声認識結果が複数出力される。しかし、表示スペースが限られる、分かりやすいGUIの妨げになるなどの理由から、画面に一度に出力する候補の数はあまり多くできない。これにより、内容に大きな差がないような候補で出力欄が占有され、正解の音声認識結果が出力されない場合がある。
上述の非特許文献3では、誤り傾向に応じてペナルティーを与えるため、より誤りやすい傾向にある単語は出力確率を抑えられるが、これにより候補間の差異が少なくなり、上記同様、似たような認識結果で候補集合が占有されることが考えられる。
そこで本発明では、バリエーションが多く、かつ外れ値を排除した音声認識結果集合を生成できる音声認識装置を提供することを目的とする。
本発明の音声認識装置は、音声認識部と、コンフュージョンネットワーク生成部と、コンフュージョンネットワーク操作部を含む。
音声認識部は、音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する。コンフュージョンネットワーク生成部は、音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成する。コンフュージョンネットワーク操作部は、コンフュージョンネットワークにおいて複数のアークに分岐した位置におけるアークのセットであるコンフュージョンセット内の各アークについて、既存発話における文脈との一致性を表す文脈一致性を算出し、コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す概念類似性を算出し、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替える。
本発明の音声認識装置によれば、バリエーションが多く、かつ外れ値を排除した音声認識結果集合を生成できる。
実施例1の音声認識装置の構成を示すブロック図。 実施例1の音声認識装置の動作を示すフローチャート。 実施例1の音声認識装置が生成するコンフュージョンネットワークの例を示す図。 実施例1のコンフュージョンネットワーク操作部の構成を示すブロック図。 実施例1のコンフュージョンネットワーク操作部の動作を示すフローチャート。 実施例1の音声認識装置の文脈一致性算出部の構成を示すブロック図。 実施例1の音声認識装置の文脈一致性算出部の動作を示すフローチャート。 実施例1の音声認識装置の概念類似性算出部の構成を示すブロック図。 実施例1の音声認識装置の概念類似性算出部の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、図2を参照して実施例1の音声認識装置の構成、および動作を説明する。図1は、本実施例の音声認識装置1の構成を示すブロック図である。図2は、本実施例の音声認識装置1の動作を示すフローチャートである。図1に示すように、本実施例の音声認識装置1は、音声認識部11と、コンフュージョンネットワーク生成部12と、コンフュージョンネットワーク操作部13を含む。
音声認識部11は、音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する(S11)。音声認識部11は、例えば参考非特許文献1などに開示されている公知の技術により音声認識を実行する。入力が音声信号の場合は、音声認識部11は必要に応じて音声区間検出処理や雑音抑圧処理を行い、音声信号を音声特徴量に変換したのち、音声認識処理を実行する。
(参考非特許文献1:日本電信電話株式会社、”音声認識エンジンVoiceRexの開発”、[online]、日本電信電話株式会社、[平成27年7月10日検索]、インターネット<URL:http://www.ntt.co.jp/svlab/activity/category_2/product2_12.html>)
コンフュージョンネットワーク生成部12は、音声認識結果集合に基づいて、コンフュージョンネットワークを生成する(S12)。コンフュージョンネットワーク生成部12は、例えば参考非特許文献2などに開示されている公知の技術によりコンフュージョンネットワークを生成する。
(参考非特許文献2:Lidia Mangu et al., “Finding consensus in speech recognition: word error minimization and other applications of confusion networks,” Computer Speech & Language, volume 14, issue 4, pp.373-400, October 2000.)
図3を参照して、コンフュージョンネットワークについて説明する。図3は、本実施例の音声認識装置1が生成するコンフュージョンネットワークの例を示す図である。同図の例において、音声認識部11は「お電話ありがとう」「お電話有りがとう」「お電話蟻がとう」「おでんはありがとう」「おでんは有りがとう」「おでんは蟻がとう」の合計6つの音声認識結果からなる音声認識結果集合を取得したものとする。この場合、コンフュージョンネットワーク生成部12は、同図に示すコンフュージョンネットワークを生成する。コンフュージョンネットワークにおいては、複数のパターンで音声認識された箇所については、複数のアークに分岐した状態で表現される。複数のアークに分岐した位置におけるアークのセットをコンフュージョンセットと呼ぶ。同図の例では、音声認識結果が「電話」「でんは」と二つのパターンに分かれた箇所、「あり」「有り」「蟻」と三つのパターンに分かれた箇所において、それぞれアーク二つを含むコンフュージョンセット、アーク三つを含むコンフュージョンセットが形成される。ステップS12で生成されるコンフュージョンネットワークは、そのアークに品詞情報および単語事後確率を含むものとする。例えば同図において、「お」に対して、品詞情報として「接頭辞」、単語事後確率としてPが付与されている。「電話」に対して、品詞情報として「名詞」、単語事後確率としてPが付与されている。
コンフュージョンネットワーク操作部13は、コンフュージョンセット内の各アークについて、文脈一致性、概念類似性を算出し、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替える(S13)。文脈一致性とは、既存発話における文脈との一致性を表す値のことである。概念類似性とは、コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す値である。
以下、図4、図5を参照して本実施例の音声認識装置1のコンフュージョンネットワーク操作部13の詳細な構成および動作について説明する。図4は、本実施例のコンフュージョンネットワーク操作部13の構成を示すブロック図である。図5は、本実施例のコンフュージョンネットワーク操作部13の動作を示すフローチャートである。
図5に示すようにコンフュージョンネットワーク操作部13は、代表品詞抽出部131と、処理対象抽出部132と、文脈一致性算出部133と、概念類似性算出部134と、音声認識結果並び替え部135を含む構成である。
代表品詞抽出部131は、各コンフュージョンセットにおいて多く含まれる品詞を各コンフュージョンセットの代表品詞として抽出する(S131)。代表品詞抽出部131は、あるコンフュージョンセット内の各アークの品詞が例えば「名詞」「名詞」「形容詞」であった場合、「名詞」を代表品詞として抽出する。代表品詞抽出部131は、コンフュージョンセット内の複数の品詞を代表品詞として抽出してもよい。例えば図3の「電話(名詞)」「でんは(格助詞)」が一つずつ含まれるコンフュージョンセットについては、「名詞」「格助詞」の双方を代表品詞として抽出してもよい。また同図の「あり(形容詞)」「有り(動詞)」「蟻(名詞)」が一つずつ含まれるコンフュージョンセットについては、「形容詞」「動詞」「名詞」の全てを代表品詞として抽出してもよい。
処理対象抽出部132は、代表品詞が特定の品詞(例えば名詞、動詞語幹等)となるコンフュージョンセットのみを処理対象として抽出する(S132)。処理対象抽出部132は、処理対象外のコンフュージョンセットについては、単語事後確率最大の単語のみを残し、それ以外のアークを削除する。ステップS131、S132は、音声認識において不明瞭な発音となる場合が多い、例えば助詞について生成されるコンフュージョンセット(アークが「が」「は」などで構成されるセット)を処理対象から除くことを目的の一つとしている。ただし、ステップS131、S132を実行する目的はこれに限られない。
次に、文脈一致性算出部133は、抽出されたコンフュージョンセット内の各アークについて、文脈一致性を算出する(S133)。概念類似性算出部134は、抽出されたコンフュージョンセット内の各アークについて、概念類似性を算出する(S134)。音声認識結果並び替え部135は、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替える(S135)。文脈一致性算出部133、概念類似性算出部134、音声認識結果並び替え部135の詳細については後述する。
以下、図6、図7を参照して文脈一致性算出部133の詳細な構成、動作について説明する。図6は、本実施例の音声認識装置1の文脈一致性算出部133の構成を示すブロック図である。図7は、本実施例の音声認識装置1の文脈一致性算出部133の動作を示すフローチャートである。
図6に示すように、文脈一致性算出部133は、α付与部1331と、β付与部1332と、γ付与部1333を含む構成である。図7に示すように、まず、文脈一致性算出部133は、εの初期値を0に設定する(S133A)。次に、α付与部1331は、アークが示す単語が既存発話に既出の単語であるか否かを判定する(S1331A)。アークが示す単語が既存発話に既出の単語である場合(S1331AY)、α付与部1331はεに値αを加算する(S1331B)。アークが示す単語が既存発話に既出の単語でない場合(S1331AN)、α付与部1331はεに値αを加算しない。ステップS1331B、またはステップS1331ANの後、β付与部1332は、アークが示す単語のトピックが既存発話に既出であるか否かを判定する(S1332A)。アークが示す単語のトピックが既存発話に既出である場合(S1332AY)、β付与部1332はεに値βを加算する(S1332B)。アークが示す単語のトピックが既存発話に既出でない場合(S1332AN)、β付与部1332はεに値βを加算しない。ステップS1332B、またはステップS1332ANの後、γ付与部1333は、アークが示す単語のトピックが既存発話に既出のトピックに類似するか否かを判定する(S1333A)。アークが示す単語のトピックが既存発話に既出のトピックに類似する場合(S1333AY)、γ付与部1333はεに値γを加算する(S1333B)。アークが示す単語のトピックが既存発話に既出のトピックに類似しない場合(S1333AN)γ付与部1333はεに値γを加算しない。ステップS1333B、またはステップS1333ANの後、文脈一致性算出部133は、次の処理対象のアークが存在するか否かを判定し(S133B)、次の処理対象のアークが存在する場合(S133BY)には、フローの最初に戻り、次のアークに対して同じステップ(S133A〜S133B)を実行する。次の処理対象のアークが存在しない場合(S133BN)、文脈一致性算出部133は処理を終了する(エンド)。
このように文脈一致性算出部133は、初期値0としたεに、予め定めた各条件(S1331A、S1332A,S1333A)が該当するか否かに応じて、値α、β、γをε加算するため、これらの条件がすべて該当する場合には、ε=α+β+γとして文脈一致性が算出される。例えば、S1331AY、S1332AYであって、S1333ANの場合には、ε=α+βとして文脈一致性が算出される。またすべての条件が非該当の場合にはε=0のままである。なお、1>α>β>γ>0であるものとする。図7のフローの処理例に限らず、文脈一致性算出部133は、アークが示す単語が既存発話に既出の単語であるか否か、またはアークが示す単語のトピックが既存発話に既出であるか否か、あるいはアークが示す単語のトピックが既存発話に既出のトピックに類似するか否か、の少なくとも何れかに基づいて文脈一致性を算出してもよい。
以下、図8、図9を参照して概念類似性算出部134の詳細な構成、動作について説明する。図8は、本実施例の音声認識装置1の概念類似性算出部134の構成を示すブロック図である。図9は、本実施例の音声認識装置1の概念類似性算出部134の動作を示すフローチャートである。図8に示すように概念類似性算出部134は、単語概念ベース算出部1341と、σ算出部1342を含む構成である。単語概念ベース算出部1341は、各音声認識結果の単語概念ベースを算出する。単語概念ベースの算出方法は、参考非特許文献3に開示されている。
(参考非特許文献3:別所克人、外2名、”単語と意味属性との共起に基づく概念ベクトル生成手法”、[online]、平成18年6月、人工知能学会、[平成27年7月10日検索]、インターネット<URL:http://www.jaist.ac.jp/jsai2006/program/pdf/100023.pdf>)
σ算出部1342は、単語事後確率最大となる候補とそれ以外の候補との概念類似性σを下記の式にて算出する。このとき、単語事後確率最大の候補の場合はσ=1とし、改めて計算はしないものとする。
σ=(1+|cosθ|)/2
ここで|cosθ|は、計算対象の2つのベクトル間のコサイン測度の絶対値とする。最後に、音声認識結果並び替え部135は、コンフュージョンネットワーク上でのすべての組み合わせについて、概念類似性σの逆数1/σと文脈一致性εとの和を算出し、当該和の値が大きい順に音声認識結果を並び替え、上から順にN個の候補を、修正済み音声認識結果集合として出力する(S135)。
本実施例の音声認識装置1によれば、言語的な文脈を考慮しつつ、単語事後確率最大となる候補との概念類似性の高くない候補に加点をするような評価関数を設定することで、よりバリエーションが高く、かつ外れ値を排除できる結果集合を生成できるようになり、ユーザの選択がしやすいようにすることができる。また、コンフュージョンセットの中で重要となる特定の品詞に限って候補をとるようにすることで、仔細な差異しかないような候補が並びにくくなる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する音声認識部と、
    前記音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成するコンフュージョンネットワーク生成部と、
    前記コンフュージョンネットワークにおいて複数のアークに分岐した位置におけるアークのセットであるコンフュージョンセット内の各アークについて、既存発話における文脈との一致性を表す文脈一致性を算出し、前記コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す概念類似性を算出し、前記概念類似性の逆数と前記文脈一致性に基づく値により、前記音声認識結果集合を並び替えるコンフュージョンネットワーク操作部
    を含む音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記コンフュージョンネットワーク操作部は、
    各コンフュージョンセットにおいて多く含まれる品詞を各コンフュージョンセットの代表品詞として抽出する代表品詞抽出部と、
    前記代表品詞が特定の品詞となるコンフュージョンセットを処理対象として抽出する処理対象抽出部と、
    前記抽出されたコンフュージョンセット内の各アークについて、前記文脈一致性を算出する文脈一致性算出部と、
    前記抽出されたコンフュージョンセット内の各アークについて、前記概念類似性を算出する概念類似性算出部と、
    前記概念類似性の逆数と前記文脈一致性に基づく値により、前記音声認識結果集合を並び替える音声認識結果並び替え部
    を含む音声認識装置。
  3. 請求項1または請求項2に記載の音声認識装置であって、
    前記文脈一致性が、
    前記アークが示す単語が既存発話に既出の単語であるか否か、または前記アークが示す単語のトピックが既存発話に既出であるか否か、あるいは前記アークが示す単語のトピックが既存発話に既出のトピックに類似するか否か、の少なくとも何れかに基づいて算出される
    音声認識装置。
  4. 請求項1から3の何れかに記載の音声認識装置であって、
    前記概念類似性が、
    前記各アークの単語概念ベクトル間のコサイン測度に基づいて算出される
    音声認識装置。
  5. 音声認識装置が実行する音声認識方法であって、
    音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得するステップと、
    前記音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成するステップと、
    前記コンフュージョンネットワークにおいて複数のアークに分岐した位置におけるアークのセットであるコンフュージョンセット内の各アークについて、既存発話における文脈との一致性を表す文脈一致性を算出し、前記コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す概念類似性を算出し、前記概念類似性の逆数と前記文脈一致性に基づく値により、前記音声認識結果集合を並び替えるステップ
    を含む音声認識方法。
  6. コンピュータを請求項1から4の何れかに記載の音声認識装置として機能させるプログラム。
JP2015145011A 2015-07-22 2015-07-22 音声認識装置、音声認識方法、プログラム Active JP6486789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015145011A JP6486789B2 (ja) 2015-07-22 2015-07-22 音声認識装置、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015145011A JP6486789B2 (ja) 2015-07-22 2015-07-22 音声認識装置、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017026808A true JP2017026808A (ja) 2017-02-02
JP6486789B2 JP6486789B2 (ja) 2019-03-20

Family

ID=57946459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015145011A Active JP6486789B2 (ja) 2015-07-22 2015-07-22 音声認識装置、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP6486789B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019044583A1 (ja) * 2017-09-04 2019-03-07 日本電信電話株式会社 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59116837A (ja) * 1982-12-23 1984-07-05 Comput Basic Mach Technol Res Assoc 音声入力式日本語文書処理装置
JPH04235599A (ja) * 1991-01-11 1992-08-24 Fujitsu Ltd 認識候補情報グループ別表示処理方式
JPH05249992A (ja) * 1992-03-04 1993-09-28 Hitachi Ltd 音声認識装置
JPH1049187A (ja) * 1996-08-01 1998-02-20 Mitsubishi Electric Corp 音声情報検索装置
JPH10274996A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 音声認識装置
JP2014160168A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59116837A (ja) * 1982-12-23 1984-07-05 Comput Basic Mach Technol Res Assoc 音声入力式日本語文書処理装置
JPH04235599A (ja) * 1991-01-11 1992-08-24 Fujitsu Ltd 認識候補情報グループ別表示処理方式
JPH05249992A (ja) * 1992-03-04 1993-09-28 Hitachi Ltd 音声認識装置
JPH1049187A (ja) * 1996-08-01 1998-02-20 Mitsubishi Electric Corp 音声情報検索装置
JPH10274996A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 音声認識装置
JP2014160168A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019044583A1 (ja) * 2017-09-04 2019-03-07 日本電信電話株式会社 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
JPWO2019044583A1 (ja) * 2017-09-04 2020-10-08 日本電信電話株式会社 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109685536B (zh) * 2017-10-18 2021-01-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置

Also Published As

Publication number Publication date
JP6486789B2 (ja) 2019-03-20

Similar Documents

Publication Publication Date Title
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
US10176804B2 (en) Analyzing textual data
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
WO2019118256A1 (en) Generation of text from structured data
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
CN110046637B (zh) 一种合同段落标注模型的训练方法、装置及设备
JP7116309B2 (ja) コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
JP2019139010A (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
US9053087B2 (en) Automatic semantic evaluation of speech recognition results
JP5740368B2 (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2016045769A (ja) 対話システム評価方法、対話システム評価装置及びプログラム
WO2020148166A1 (en) A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test
JP6353408B2 (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
JP6261669B2 (ja) クエリ校正システムおよび方法
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
US11289095B2 (en) Method of and system for translating speech to text
CN114691907A (zh) 一种跨模态检索的方法、设备及介质
JP2013109125A (ja) 単語追加装置、単語追加方法、およびプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2021086362A (ja) 情報処理装置、情報処理方法及びプログラム
JP5980143B2 (ja) ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190220

R150 Certificate of patent or registration of utility model

Ref document number: 6486789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150