JP6495792B2 - 音声認識装置、音声認識方法、プログラム - Google Patents

音声認識装置、音声認識方法、プログラム Download PDF

Info

Publication number
JP6495792B2
JP6495792B2 JP2015182917A JP2015182917A JP6495792B2 JP 6495792 B2 JP6495792 B2 JP 6495792B2 JP 2015182917 A JP2015182917 A JP 2015182917A JP 2015182917 A JP2015182917 A JP 2015182917A JP 6495792 B2 JP6495792 B2 JP 6495792B2
Authority
JP
Japan
Prior art keywords
speech
sentence boundary
speech recognition
sentence
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015182917A
Other languages
English (en)
Other versions
JP2017058507A (ja
Inventor
太一 浅見
太一 浅見
厚志 安藤
厚志 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015182917A priority Critical patent/JP6495792B2/ja
Publication of JP2017058507A publication Critical patent/JP2017058507A/ja
Application granted granted Critical
Publication of JP6495792B2 publication Critical patent/JP6495792B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

入力された音声信号を音声認識して、音声認識結果を文ごとに分割して出力する音声認識装置、音声認識方法、およびプログラムに関する。
入力された音声信号を音声認識によってテキスト化する際、音声認識結果が文ごとに分割されていれば、文を単位にした自然言語処理(例えば文書要約など)を音声認識結果に適用したときに正しい結果を得やすくなる。
文ごとに分割された音声認識結果(以下、文境界付き音声認識結果という)を出力する従来技術が非特許文献1に開示されている。以下、図1〜図3を参照して、非特許文献1の音声認識装置について説明する。図1は、非特許文献1の音声認識装置9の構成を示すブロック図である。図2、図3は、非特許文献1の音声認識装置9の動作を示すフローチャートであって、図2は、識別器学習動作を示すフローチャート、図3は、音声認識動作を示すフローチャートである。
図1に示すように非特許文献1の音声認識装置9は、文境界ラベル付きテキストコーパス記憶部90と、文境界識別器学習部91と、音声区間検出部92と、音声認識部93と、文境界識別部94を含む構成である。文境界ラベル付きテキストコーパス記憶部90は、正しい文境界位置(文境界ラベル)が付与された大量のテキストコーパス(以下、文境界ラベル付きテキストコーパスという)が記憶されている。図2に示すように、文境界識別器学習部91は、文境界ラベル付きテキストコーパスから文境界の識別に用いる文境界識別器を学習する(S91)。文境界識別器としては、Support Vector Machine(SVM)やニューラルネットワークなど、2値分類が可能な既存の識別器が利用可能である。文境界識別器学習部91は、識別器の種類に応じた既存のアルゴリズムを用いて文境界識別器を学習する。ステップS91は後述するステップS92〜S94に先立ち、予め実行されているものとする。
音声区間検出部92は、所定のポーズ長L1(例えば500ms程度)以上のポーズ(以下では、ポーズ区間ともいう)に挟まれた発声区間である発話を音声信号から検出して、発話検出済み音声信号を出力する(S92)。音声区間検出部92は既存のVAD技術によって音声信号中のポーズおよび発話を検出する。音声認識部93は、発話検出済み音声信号を音声認識して、各発話に対する音声認識結果を出力する(S93)。
最も単純な方法では、ステップS93で得られた音声認識結果をそのまま文境界付き音声認識結果と見なす。つまり発話=文と見なす。現実には、複数の文が一呼吸で発声され、一つの発話に複数の文が含まれるケースや、文の途中に呼吸(所定のポーズ長L1以上の長さのポーズ)が置かれ、一つの文が複数の発話に分割されるケースが存在するため、後述の文境界識別部94によって文境界をあらためて検出する必要がある。
文境界識別部94は、ステップS91において事前に学習された文境界識別器を用いて、音声認識結果中の各単語境界の直前/直後の単語の表記や品詞を特徴量として、当該単語境界が文境界であるか否かを識別し、文境界付き音声認識結果を出力する(S94)。
祖父江翔、山本けい子、田村哲嗣、速水悟、「音声認識結果の文境界推定における識別モデルの評価」、言語処理学会第15回年次大会発表論文集、一般社団法人言語処理学会、平成21年3月、pp.582-585
従来技術では事前に学習した文境界識別器を利用するため、学習に用いたテキストコーパス中の文境界の特徴(直前/直後の単語の表記や品詞)とは異なる特徴を持つ文境界は正しく識別することができない。特に人間同士の会話音声においては文境界の特徴には様々なバリエーションがある。例えば、会話相手との親しさの度合い、発言する場がフォーマルな場であるか否か、話者ごとの文末表現の癖などによって文境界での表現が多様に変化する。このようなバリエーションを事前に網羅しておくことは難しく、例えば特定の利用者の音声ではほとんど文境界が検出されなくなるなど、文境界識別の精度が低下し、システムの利便性が落ちる場合がある。
また、文境界識別器の学習には、音声認識結果テキストの各単語境界に人手で文境界か否かを表すラベル(文境界ラベル)を付与したデータを用いるのが一般的だが、音声認識結果には認識誤りが含まれるため、正しい文境界ラベルを付与するには元の音声を聴取しながら作業を行う必要があり、作業量が大きいためシステム構築コストの増加の要因となる。
そこで本発明は、文境界識別器を用いずに、音声認識結果を文ごとに分割することができる音声認識装置を提供することを目的とする。
本発明の音声認識装置は、文境界検出部を含む。所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、文境界検出部は、発話を検出済みの音声信号である発話検出済み音声信号と、発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、発話検出済み音声信号の発話またはポーズの始端および終端時刻とを用いる。文境界検出部は、発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、文境界候補の特徴量に基づいて文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する。
本発明の音声認識装置によれば、文境界識別器を用いずに、音声認識結果を文ごとに分割することができる。
非特許文献1の音声認識装置の構成を示すブロック図。 非特許文献1の音声認識装置の識別器学習動作を示すフローチャート。 非特許文献1の音声認識装置の音声認識動作を示すフローャート。 実施例1の音声認識装置の構成を示すブロック図。 実施例1の音声認識装置の動作を示すフローチャート。 実施例1の音声認識装置の音声区間検出部の出力例を示す図。 実施例1の音声認識装置の音声認識部の出力例を示す図。 実施例1の音声認識装置の文境界検出部の構成を示すブロック図。 実施例1の音声認識装置の文境界検出部の動作を示すフローチャート。 実施例1の音声認識装置の文境界特徴抽出部の出力例を示す図。 実施例1の音声認識装置の文境界フラグ付与部の出力例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図4、図5を参照して実施例1の音声認識装置の構成、および動作を説明する。図4は、本実施例の音声認識装置10の構成を示すブロック図である。図5は、本実施例の音声認識装置10の動作を示すフローチャートである。図4に示すように音声認識装置10は、音声区間検出部102と、音声認識部103と、文境界検出部104を含む。本実施例の音声認識装置10は、文境界識別器を利用しないため、前述した文境界ラベル付きテキストコーパス記憶部90、文境界識別器学習部91は不要である。
音声区間検出部102は、既存のVAD技術により、発話を音声信号から検出して、発話検出済み音声信号を出力する(S102)。音声区間検出部102は、発話検出済み音声信号とともに、発話またはポーズの始端および終端時刻(音声信号の冒頭を時刻0とする)を出力する。発話の始端時刻は当該発話の直前のポーズの終端時刻と等しく、発話の終端時刻は当該発話の直後のポーズの始端時刻と等しいから、発話の始端および終端時刻、またはポーズの始端および終端時刻の少なくともいずれかがあれば十分である。発話またはポーズの始端/終端時刻は、例えば図6に示すテーブル形式のデータ構造で、音声認識装置10の何れかの記憶領域に格納される。図6は、音声区間検出部102の出力例を示す図である。
次に、音声認識部103は、発話検出済み音声信号を音声認識して、発話またはポーズの始端および終端時刻と、表記と品詞を含む音声認識結果を出力する(S103)。音声認識結果は、後述する文境界候補のクラスタリングにおいて話者の傾向などを十分に把握するために、一定量以上(例えば約100発話以上)あることが望ましい。
なお、音声認識部103は、音声区間検出部102が出力する始端および終端時刻に加え、音声区間検出部102が検出しなかった短いポーズによる始端および終端時刻を出力することに注意する。
図7に、音声認識部103の出力例を示す。図7の出力例における始端時刻が8.66秒、終端時刻が9.03秒のポーズは、図6の出力例に含まれない短いポーズ(ステップS102で検出対象となっていない、所定のポーズ長L1以下のポーズ)である。
一般的なVAD技術では、通常500ms程度に設定される所定のポーズ長L1以上のポーズ(およびポーズに挟まれた発話)を検出する。従って、一般的なVAD技術を用いて音声区間検出部102を構成した場合、所定のポーズ長L1未満の短いポーズは音声区間検出部102では検出されない。このため、所定のポーズ長L1未満の短いポーズは、音声認識部103が検出する。
次に、文境界検出部104は、発話検出済み音声信号内の予め定めた最短ポーズ長T1以上の長さとなるポーズの一部または全部を文境界候補とし、文境界候補の特徴量に基づいて文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値T2以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する(S104)。
以下、図8、図9を参照して文境界検出部104の詳細な構成例および動作例について説明する。図8は、本実施例の音声認識装置10の文境界検出部104の構成を示すブロック図である。図9は、本実施例の音声認識装置10の文境界検出部104の動作を示すフローチャートである。図8に示すように、文境界検出部104は、文境界候補特定部1041と、文境界特徴抽出部1042と、文境界候補クラスタリング部1043と、文境界フラグ付与部1044を含む構成である。
文境界候補特定部1041は、予め定めた最短ポーズ長T1以上の全てのポーズ(ただし、冒頭のポーズを除く)を文境界候補とし、文境界候補に文境界候補フラグを付与して、文境界候補フラグ付き音声認識結果を出力する(S1041)。T1は文境界に置かれるポーズの長さの最短値を規定するパラメータであり、通常はT1=200ms程度の値に予め設定される。T1=200msとして、図7の音声認識結果に文境界候補フラグを付与した例を図10の右から二番目のカラムに示す。図10は、後述する文境界特徴抽出部1042の出力例を示す図である。文境界候補特定部1041は、抽出した文境界候補毎に、文境界候補を特定する識別情報を付与することとしても良い。
最短ポーズ長T1を音声区間検出部102における所定のポーズ長L1よりも短い値に設定した場合(すなわちT1<L1)、音声区間検出部102で検出された全てのポーズが文境界候補となる。一方、音声認識部103で検出された短いポーズについては、その一部または全部が文境界候補となる。
文境界特徴抽出部1042は、予め定めた値N、M(N、Mは1以上の整数、N=Mであってもよい)に基づいて、文境界候補の直前N単語および直後M単語の表記および品詞の集合を、当該文境界候補の文境界特徴として抽出し、出力する(S1042)。値N、Mは文境界の特徴が表れる範囲を指定するパラメータであり、例えば、N=M=2と設定する。なお、音声認識結果の冒頭では直前の単語、末尾では直後の単語が存在しない。この場合には、存在しない単語の表記と品詞は取得されない。N=M=2として各文境界候補から抽出した文境界特徴の例を図10の右端のカラムに示す。
文境界特徴抽出部1042は、文境界候補を特定する識別情報と、求めた文境界特徴とを対応付けて記憶することとしても良い。たとえば、図10のテーブルの右端に「文境界候補識別情報」のカラムをさらに追加し、文境界候補フラグのカラムにフラグが立っている(図中○印で表記)各文境界候補について、各文境界候補を特定する識別情報として連番(たとえば、文境界候補番号)が付与されることとしても良い。あるいは、文境界候補フラグのカラムに識別情報を付与し、識別情報自体にフラグとしての機能を持たせてもよい。
文境界候補クラスタリング部1043は、文境界特徴間の類似度に基づいて文境界候補を分類して、分類結果である文境界候補クラスタ(以下、単にクラスタともいう)を出力する(S1043)。
文境界候補クラスタリング部1043は、まず、全ての文境界候補のペアの間で類似度を計算する。文境界候補間の類似度としては対応する文境界特徴間のコサイン類似度を用いることができる。例えば第1の文境界候補の文境界特徴をF1、第2の文境界候補の文境界特徴をF2としたとき、第1の文境界候補と第2の文境界候補の類似度Sを以下の式で計算することができる(ただし、|F|は集合Fの要素数を表す)。
Figure 0006495792
文境界候補クラスタリング部1043は、計算した文境界候補間の類似度と、類似度算出に用いた2つの文境界候補を特定する識別情報とを対応付け、既存のクラスタリング技術を実行して、文境界候補クラスタを得る。文境界候補クラスタリング部1043は、データ間の類似度を入力とし、クラスタ数を設定する必要のない(クラスタ数が自動決定される)クラスタリング手法であればどの手法を用いてもよく、例えば参考非特許文献1に記載のChinese Whispers法などを用いることができる。ステップS1043で取得される文境界候補クラスタの例を図11の右から二番目のカラムに示す。図11は、後述する文境界フラグ付与部1044の出力例を示す図である。
(参考非特許文献1:Chris Biemann, “Chinese Whispers - an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems,” in Proceedings of the first workshop on graph based methods for natural language processing, pp.73-80, 2006.)
図11の例では、各文境界候補に対して、どのクラスタに所属するかを示す番号が付与される。図11の例では、クラスタ番号1が付与されている2つの文境界候補は同じクラスタに所属している。クラスタリング手法により、各クラスタを特定する識別情報毎に、そのクラスタに含まれる「文境界候補を特定する識別情報」が対応付けて記憶される。
次に、文境界フラグ付与部1044は、文境界候補クラスタのうち予め定めたポーズ長閾値T2以上のポーズ長となる文境界候補を含むクラスタを文境界クラスタとし、文境界クラスタに含まれる文境界候補の一部または全部を文境界として検出し、文境界付き音声認識結果を出力する(S1044)。
具体的には、文境界フラグ付与部1044は、各クラスタ毎に、クラスタに含まれる文境界候補を特定する識別情報から、文境界候補となったポーズの長さを特定し、ポーズの長さがポーズ長閾値T2以上であるか否かを判定する。文境界フラグ付与部1044は、ポーズ長がT2以上のポーズが1つでもあれば、そのクラスタは文境界クラスタであると判断する。ポーズ長閾値T2は高い確率で文境界とみなせるポーズ長を規定するパラメータであり、例えば、T2=1000ms程度と設定することができる。図11の例では、T2=1000msとした場合、クラスタ番号2が付与されているポーズの長さがT2(1000ms)以上となっているため、文境界フラグ付与部1044は、クラスタ番号2のクラスタを文境界クラスタとする。なお通常は、ポーズ長閾値T2は音声区間検出部102(92)で検出するポーズ長L1よりも長い値に設定する。例えば、L1=500msとし、T2=1000msなどと設定すればよい。
文境界フラグ付与部1044は、文境界クラスタに含まれる文境界候補を、文境界として検出し、文境界フラグを付与する。図11の例では、クラスタ番号2に属する文境界候補全てに文境界フラグが付与される。文境界フラグ付与部1044は、文境界付き音声認識結果を最終的な結果として出力する。
上述したように、文境界検出部104によって、文境界識別器を用いずに文境界が付与された音声認識結果が出力される。文境界検出部104が対象の音声認識結果そのものを分析して文境界検出を行うため、当該音声認識結果における会話相手や発言の場、話者ごとの表現のクセを考慮して正しく文境界を検出することができる。
<実施例1の音声認識装置10が奏する効果>
本実施例の音声認識装置10によれば、事前に学習した文境界識別器を用いずに音声認識結果を正しく文ごとに分割できるようになり、前述した特定の利用者の音声で文境界精度が大きく低下する等のケースが減るため、利用者にとってのシステムの利便性が向上する。また、文境界識別器の学習に用いる、人手で正しい文境界ラベルを付与した音声認識結果を作成する必要がなくなるため、システム運用者のコストを低減させることができる。
<実施例1の音声認識装置10の技術的要点>
本実施例の音声認識装置10の技術的要点は、「予め設定したポーズ長閾値T2(例えば、1000ms)以上のポーズは文境界である可能性が高い」という傾向と、「一つの音声認識結果の中では(つまり会話相手/発言の場/話者が同一であれば)同じ文境界特徴が繰り返し現れる」という傾向を活用して文境界を検出する点である。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、
    前記発話を検出済みの音声信号である発話検出済み音声信号と、前記発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、前記発話検出済み音声信号の前記発話または前記ポーズの始端および終端時刻とを用いて、
    前記発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、前記文境界候補の直前及び直後の所定の数の単語の表記および品詞の集合である文境界特徴に基づいて前記文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する文境界検出部
    を含む音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記文境界検出部は、
    前記文境界を前記音声認識結果に付与した文境界付き音声認識結果を出力する
    音声認識装置。
  3. 請求項1または2に記載の音声認識装置であって、
    音声信号から前記発話を検出して前記発話検出済み音声信号を出力する音声区間検出部と、
    前記発話検出済み音声信号を音声認識して、前記始端および終端時刻と、前記音声認識結果とを出力する音声認識部
    を含む音声認識装置。
  4. 所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、
    前記発話を検出済みの音声信号である発話検出済み音声信号と、前記発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、前記発話検出済み音声信号の前記発話または前記ポーズの始端および終端時刻とを用いて、
    前記発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、前記文境界候補の直前及び直後の所定の数の単語の表記および品詞の集合である文境界特徴に基づいて前記文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出するステップ
    を音声認識装置が実行する音声認識方法。
  5. コンピュータを請求項1から3の何れかに記載の音声認識装置として機能させるプログラム。
JP2015182917A 2015-09-16 2015-09-16 音声認識装置、音声認識方法、プログラム Active JP6495792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015182917A JP6495792B2 (ja) 2015-09-16 2015-09-16 音声認識装置、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015182917A JP6495792B2 (ja) 2015-09-16 2015-09-16 音声認識装置、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017058507A JP2017058507A (ja) 2017-03-23
JP6495792B2 true JP6495792B2 (ja) 2019-04-03

Family

ID=58391467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015182917A Active JP6495792B2 (ja) 2015-09-16 2015-09-16 音声認識装置、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP6495792B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3056671C (en) 2017-03-24 2021-06-15 Mitsubishi Chemical Corporation Prepreg and fiber-reinforced composite material
CN116364077A (zh) * 2017-07-04 2023-06-30 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
JP7113474B2 (ja) * 2018-08-07 2022-08-05 国立研究開発法人情報通信研究機構 データ・セグメンテーション装置
CN110689877A (zh) * 2019-09-17 2020-01-14 华为技术有限公司 一种语音结束端点检测方法及装置
CN110942764B (zh) * 2019-11-15 2022-04-22 北京达佳互联信息技术有限公司 一种流式语音识别方法
CN112786023A (zh) * 2020-12-23 2021-05-11 竹间智能科技(上海)有限公司 标记模型构建方法及语音播报系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002341891A (ja) * 2001-05-14 2002-11-29 Nec Corp 音声認識装置および音声認識方法
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
JP5265445B2 (ja) * 2009-04-28 2013-08-14 日本放送協会 話題境界検出装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2017058507A (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
CN109065031B (zh) 语音标注方法、装置及设备
US10475484B2 (en) Method and device for processing speech based on artificial intelligence
US20200168209A1 (en) System and method for determining the compliance of agent scripts
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
US9588967B2 (en) Interpretation apparatus and method
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
JP2016536652A (ja) モバイル機器におけるリアルタイム音声評価システム及び方法
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
CN112825249A (zh) 语音处理方法和设备
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
CN104464734A (zh) 声音同时处理装置、方法及程序
JP2022120024A (ja) オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム
JP2018081169A (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
CN112259084A (zh) 语音识别方法、装置和存储介质
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5546565B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
CN112951274A (zh) 语音相似度确定方法及设备、程序产品
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190307

R150 Certificate of patent or registration of utility model

Ref document number: 6495792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150