JP6495792B2 - 音声認識装置、音声認識方法、プログラム - Google Patents
音声認識装置、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP6495792B2 JP6495792B2 JP2015182917A JP2015182917A JP6495792B2 JP 6495792 B2 JP6495792 B2 JP 6495792B2 JP 2015182917 A JP2015182917 A JP 2015182917A JP 2015182917 A JP2015182917 A JP 2015182917A JP 6495792 B2 JP6495792 B2 JP 6495792B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sentence boundary
- speech recognition
- sentence
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
(参考非特許文献1:Chris Biemann, “Chinese Whispers - an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems,” in Proceedings of the first workshop on graph based methods for natural language processing, pp.73-80, 2006.)
図11の例では、各文境界候補に対して、どのクラスタに所属するかを示す番号が付与される。図11の例では、クラスタ番号1が付与されている2つの文境界候補は同じクラスタに所属している。クラスタリング手法により、各クラスタを特定する識別情報毎に、そのクラスタに含まれる「文境界候補を特定する識別情報」が対応付けて記憶される。
本実施例の音声認識装置10によれば、事前に学習した文境界識別器を用いずに音声認識結果を正しく文ごとに分割できるようになり、前述した特定の利用者の音声で文境界精度が大きく低下する等のケースが減るため、利用者にとってのシステムの利便性が向上する。また、文境界識別器の学習に用いる、人手で正しい文境界ラベルを付与した音声認識結果を作成する必要がなくなるため、システム運用者のコストを低減させることができる。
本実施例の音声認識装置10の技術的要点は、「予め設定したポーズ長閾値T2(例えば、1000ms)以上のポーズは文境界である可能性が高い」という傾向と、「一つの音声認識結果の中では(つまり会話相手/発言の場/話者が同一であれば)同じ文境界特徴が繰り返し現れる」という傾向を活用して文境界を検出する点である。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (5)
- 所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、
前記発話を検出済みの音声信号である発話検出済み音声信号と、前記発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、前記発話検出済み音声信号の前記発話または前記ポーズの始端および終端時刻とを用いて、
前記発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、前記文境界候補の直前及び直後の所定の数の単語の表記および品詞の集合である文境界特徴に基づいて前記文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する文境界検出部
を含む音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記文境界検出部は、
前記文境界を前記音声認識結果に付与した文境界付き音声認識結果を出力する
音声認識装置。 - 請求項1または2に記載の音声認識装置であって、
音声信号から前記発話を検出して前記発話検出済み音声信号を出力する音声区間検出部と、
前記発話検出済み音声信号を音声認識して、前記始端および終端時刻と、前記音声認識結果とを出力する音声認識部
を含む音声認識装置。 - 所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、
前記発話を検出済みの音声信号である発話検出済み音声信号と、前記発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、前記発話検出済み音声信号の前記発話または前記ポーズの始端および終端時刻とを用いて、
前記発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、前記文境界候補の直前及び直後の所定の数の単語の表記および品詞の集合である文境界特徴に基づいて前記文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出するステップ
を音声認識装置が実行する音声認識方法。 - コンピュータを請求項1から3の何れかに記載の音声認識装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182917A JP6495792B2 (ja) | 2015-09-16 | 2015-09-16 | 音声認識装置、音声認識方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182917A JP6495792B2 (ja) | 2015-09-16 | 2015-09-16 | 音声認識装置、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017058507A JP2017058507A (ja) | 2017-03-23 |
JP6495792B2 true JP6495792B2 (ja) | 2019-04-03 |
Family
ID=58391467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015182917A Active JP6495792B2 (ja) | 2015-09-16 | 2015-09-16 | 音声認識装置、音声認識方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6495792B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3056671C (en) | 2017-03-24 | 2021-06-15 | Mitsubishi Chemical Corporation | Prepreg and fiber-reinforced composite material |
CN116364077A (zh) * | 2017-07-04 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
JP7113474B2 (ja) * | 2018-08-07 | 2022-08-05 | 国立研究開発法人情報通信研究機構 | データ・セグメンテーション装置 |
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
CN110942764B (zh) * | 2019-11-15 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
CN112786023A (zh) * | 2020-12-23 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002341891A (ja) * | 2001-05-14 | 2002-11-29 | Nec Corp | 音声認識装置および音声認識方法 |
JP2010230695A (ja) * | 2007-10-22 | 2010-10-14 | Toshiba Corp | 音声の境界推定装置及び方法 |
JP5265445B2 (ja) * | 2009-04-28 | 2013-08-14 | 日本放送協会 | 話題境界検出装置及びコンピュータプログラム |
-
2015
- 2015-09-16 JP JP2015182917A patent/JP6495792B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017058507A (ja) | 2017-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
US10475484B2 (en) | Method and device for processing speech based on artificial intelligence | |
US20200168209A1 (en) | System and method for determining the compliance of agent scripts | |
CN109754783B (zh) | 用于确定音频语句的边界的方法和装置 | |
US9588967B2 (en) | Interpretation apparatus and method | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
JP2016536652A (ja) | モバイル機器におけるリアルタイム音声評価システム及び方法 | |
JP6812381B2 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
CN112825249A (zh) | 语音处理方法和设备 | |
EP4322029A1 (en) | Method and apparatus for generating video corpus, and related device | |
CN104464734A (zh) | 声音同时处理装置、方法及程序 | |
JP2022120024A (ja) | オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2018081169A (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
CN112259084A (zh) | 语音识别方法、装置和存储介质 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP5546565B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
JP5997813B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
JP2018132678A (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
CN112951274A (zh) | 语音相似度确定方法及设备、程序产品 | |
JP6537996B2 (ja) | 未知語検出装置、未知語検出方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |