JP7409475B2 - 発話終端検出装置、制御方法、及びプログラム - Google Patents
発話終端検出装置、制御方法、及びプログラム Download PDFInfo
- Publication number
- JP7409475B2 JP7409475B2 JP2022502656A JP2022502656A JP7409475B2 JP 7409475 B2 JP7409475 B2 JP 7409475B2 JP 2022502656 A JP2022502656 A JP 2022502656A JP 2022502656 A JP2022502656 A JP 2022502656A JP 7409475 B2 JP7409475 B2 JP 7409475B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- audio signal
- text data
- detection device
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 113
- 238000000034 method Methods 0.000 title claims description 34
- 230000005236 sound signal Effects 0.000 claims description 63
- 238000006243 chemical reaction Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Description
<概要>
図1は、実施形態1に係る終端検出装置2000の動作を概念的に例示する図である。ここで、図1を用いて説明する終端検出装置2000の動作は、終端検出装置2000の理解を容易にするための例示であり、終端検出装置2000の動作を限定するものではない。終端検出装置2000の動作の詳細やバリエーションについては後述する。
終端検出装置2000によれば、ソースデータ10をテキストデータ30に変換し、テキストデータ30を解析することにより、ソースデータ10によって表されている音声信号に含まれる発話の終端が検出される。終端検出装置2000によれば、このようにテキストデータの解析によって各発話の終端を検出することで、各発話の終端を高い精度で検出することができる。
図2は、終端検出装置2000の機能構成を例示するブロック図である。終端検出装置2000は、変換部2020及び検出部2040を有する。変換部2020は、ソースデータ10をテキストデータ30に変換する。検出部2040は、テキストデータ30から、ソース音声信号に含まれる1つ以上の発話それぞれの終端を検出する。
終端検出装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、終端検出装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図4は、実施形態1の終端検出装置2000によって実行される処理の流れを例示するフローチャートである。変換部2020はソースデータ10を取得する(S102)。変換部2020はソースデータ10を音声フレーム列20に変換する(S104)。変換部2020は音声フレーム列20をテキストデータ30に変換する(S106)。検出部2040はテキストデータ30から発話の終端を検出する(S108)。
変換部2020はソースデータ10を取得する(S102)。変換部2020がソースデータ10を取得する方法は任意である。例えば変換部2020は、ユーザが操作するユーザ端末から送信されるソースデータ10を受信することで、ソースデータ10を取得する。その他にも例えば、変換部2020は、変換部2020からアクセス可能な記憶装置に格納されているソースデータ10を取得してもよい。この場合、例えば終端検出装置2000は、ユーザ端末から、取得すべきソースデータ10の指定(ファイル名などの指定)を受け付ける。その他にも例えば、変換部2020は、上記記憶装置に格納されている1つ以上のデータをそれぞれソースデータ10として取得してもよい。すなわちこの場合、記憶装置に予め格納しておいた複数のソースデータ10についてバッチ処理が行われる。
変換部2020はソースデータ10を音声フレーム列20に変換する(S104)。ここで、録音データなどのソースデータを音声フレーム列20に変換する技術には、既存の技術を利用することができる。例えば、音声フレームを生成する処理は、所定長のタイムウインドウを、ソース音声信号の先頭から一定の時間幅で移動させながら、タイムウインドウに含まれる音声信号を順に抽出していく処理となる。このようにして抽出された各音声信号や、その音声信号から得られる特徴量が、音声フレームとして利用される。そして、抽出された音声フレームを時系列で並べたものが音声フレーム列20となる。
変換部2020は音声フレーム列20をテキストデータ30に変換する(S104)。音声フレーム列20をテキストデータ30に変換する方法は様々である。例えばテキストデータ30が音素列であるとする。この場合、例えば変換部2020は、音声フレーム列20を音素列に変換するように学習された音響モデルを有する。変換部2020は、音声フレーム列20に含まれる各音声フレームを順に音響モデルに入力していく。その結果、音響モデルから、音声フレーム列20に対応する音素列が得られる。なお、音声フレーム列を音素列に変換する音響モデルを生成する技術、及び音響モデルを用いて音声フレーム列を音素列に変換する具体的な技術には、既存の技術を利用することができる。
検出部2040は、変換部2020によって得られたテキストデータ30から、発話の終端を1つ以上検出する(S108)。ここで、テキストデータ30から発話の終端を検出する方法は様々である。以下、その方法をいくつか例示する。
例えば検出部2040は、言語モデルを用いて発話の終端を検出する。この言語モデルは、「音素列、正解の単語列」というペアを含む教師データを複数用いて予め学習しておく。音素列と正解の単語列は、同一の音声信号に基づいて生成される。音素列は、例えば、その音声信号を音声フレーム列に変換し、その音声フレーム列を音響モデルで音素列に変換することで生成される。正解の単語列は、例えば、その音声信号に含まれる発話について、人手で書き起こしを行うことで生成される。
例えば検出部2040は、発話の終端を表す単語のリスト(以下、終端単語リスト)を利用する。終端単語リストは、予め作成して、検出部2040からアクセス可能な記憶装置に格納しておく。検出部2040は、テキストデータ30に含まれる単語の中から、終端単語リストに含まれる単語と一致するものを検出する。そして、検出部2040は、検出された単語を、発話の終端として検出する。
以上のように、検出部2040により、ソースデータ10によって表されている発話の終端が検出される。検出された終端に関する情報を利用する方法は様々である。
終端検出装置2000が利用する音響モデル、言語モデル、End-to-End 型の音声認識モデル、又は判別モデルなどといった各種のモデルは、利用シーンに応じて切り替えられることが好適である。例えば、コンピュータ分野の人たちの会議ではコンピュータ分野の専門用語が多く現れる一方、医学分野の人たちの会議では医学分野の専門用語が多く現れる。そこで例えば、分野ごとに学習済みモデルを用意しておく。その他にも例えば、日本語や英語などといった言語ごとにモデルを用意しておくことが好適である。
1. 1つ以上の発話が含まれる音声信号を表すソースデータを取得し、前記ソースデータをテキストデータに変換する変換部と、
前記テキストデータを解析することにより、前記音声信号に含まれる各発話の終端を検出する検出部と、を有する発話終端検出装置。
2. 前記テキストデータは音素列であり、
前記検出部は、音素列を単語列に変換する言語モデルを有し、
前記言語モデルは、音素列を、発話の終端を表す終端トークンが単語として含まれる単語列に変換するように学習されたものであり、
前記検出部は、
前記テキストデータを前記言語モデルに入力することで、前記テキストデータを単語列に変換し、
前記単語列に含まれる前記終端トークンを発話の終端として検出する、1.に記載の発話終端検出装置。
3. 前記テキストデータは単語列であり、
前記検出部は、前記テキストデータの中から発話の終端を表す単語を検出することで、発話の終端を検出する、1.に記載の発話終端検出装置。
4. 前記検出部によって検出された発話の終端に基づいて、前記ソースデータによって表される音声信号を発話ごとの区間に区切り、各前記区間について音声認識処理を行う認識部を有する、1.から3いずれか一つに記載の発話終端検出装置。
5. 前記認識部は、各前記区間について、後ろ向きアルゴリズムを利用した音声認識処理を行う、4.に記載の発話終端検出装置。
6. コンピュータによって実行される制御方法であって、
1つ以上の発話が含まれる音声信号を表すソースデータを取得し、前記ソースデータをテキストデータに変換する変換ステップと、
前記テキストデータを解析することにより、前記音声信号に含まれる各発話の終端を検出する検出ステップと、を有する制御方法。
7. 前記テキストデータは音素列であり、
前記検出ステップにおいて、音素列を単語列に変換する言語モデルを有し、
前記言語モデルは、音素列を、発話の終端を表す終端トークンが単語として含まれる単語列に変換するように学習されたものであり、
前記検出ステップにおいて、
前記テキストデータを前記言語モデルに入力することで、前記テキストデータを単語列に変換し、
前記単語列に含まれる前記終端トークンを発話の終端として検出する、6.に記載の制御方法。
8. 前記テキストデータは単語列であり、
前記検出ステップにおいて、前記テキストデータの中から発話の終端を表す単語を検出することで、発話の終端を検出する、6.に記載の制御方法。
9. 前記検出ステップにおいて検出された発話の終端に基づいて、前記ソースデータによって表される音声信号を発話ごとの区間に区切り、各前記区間について音声認識処理を行う認識ステップを有する、6.から8いずれか一つに記載の制御方法。
10. 前記認識ステップにおいて、各前記区間について、後ろ向きアルゴリズムを利用した音声認識処理を行う、9.に記載の制御方法。
11. 6.から10いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。
20 音声フレーム列
30 テキストデータ
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 終端検出装置
2020 変換部
2040 検出部
2060 認識部
Claims (6)
- 1つ以上の発話が含まれる音声信号を表すソースデータを取得し、前記ソースデータをテキストデータに変換する変換部と、
前記テキストデータを解析することにより、前記音声信号に含まれる各発話の終端を検出する検出部と、
前記検出部によって検出された発話の終端に基づいて、前記ソースデータによって表される音声信号を発話ごとの区間に区切り、各前記区間の音声信号を抽出し、抽出した各前記区間の音声信号に対して、音声認識処理を行う認識部とを有する
発話終端検出装置。 - 前記テキストデータは音素列であり、
前記検出部は、音素列を単語列に変換する言語モデルを有し、
前記言語モデルは、音素列を、発話の終端を表す終端トークンが単語として含まれる単語列に変換するように学習されたものであり、
前記検出部は、
前記テキストデータを前記言語モデルに入力することで、前記テキストデータを単語列に変換し、
前記単語列に含まれる前記終端トークンを発話の終端として検出する、請求項1に記載の発話終端検出装置。 - 前記テキストデータは単語列であり、
前記検出部は、前記テキストデータの中から発話の終端を表す単語を検出することで、発話の終端を検出する、請求項1に記載の発話終端検出装置。 - 前記認識部は、各前記区間について、後ろ向きアルゴリズムを利用した音声認識処理を行う、請求項1から3のいずれか一項に記載の発話終端検出装置。
- コンピュータによって実行される制御方法であって、
1つ以上の発話が含まれる音声信号を表すソースデータを取得し、前記ソースデータをテキストデータに変換する変換ステップと、
前記テキストデータを解析することにより、前記音声信号に含まれる各発話の終端を検出する検出ステップと、
前記検出ステップで検出された発話の終端に基づいて、前記ソースデータによって表される音声信号を発話ごとの区間に区切り、各前記区間の音声信号を抽出し、抽出した各前記区間の音声信号に対して、音声認識処理を行う認識ステップとを有する制御方法。 - 制御方法をコンピュータに実行させるプログラムであって、
当該制御方法は、
1つ以上の発話が含まれる音声信号を表すソースデータを取得し、前記ソースデータをテキストデータに変換する変換ステップと、
前記テキストデータを解析することにより、前記音声信号に含まれる各発話の終端を検出する検出ステップと、
前記検出ステップで検出された発話の終端に基づいて、前記ソースデータによって表される音声信号を発話ごとの区間に区切り、各前記区間の音声信号を抽出し、抽出した各前記区間の音声信号に対して、音声認識処理を行う認識ステップとを有する
プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/007711 WO2021171417A1 (ja) | 2020-02-26 | 2020-02-26 | 発話終端検出装置、制御方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021171417A1 JPWO2021171417A1 (ja) | 2021-09-02 |
JPWO2021171417A5 JPWO2021171417A5 (ja) | 2022-10-25 |
JP7409475B2 true JP7409475B2 (ja) | 2024-01-09 |
Family
ID=77492082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022502656A Active JP7409475B2 (ja) | 2020-02-26 | 2020-02-26 | 発話終端検出装置、制御方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230082325A1 (ja) |
JP (1) | JP7409475B2 (ja) |
WO (1) | WO2021171417A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258890A (ja) | 2001-02-20 | 2002-09-11 | Internatl Business Mach Corp <Ibm> | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
JP2017187797A (ja) | 2017-06-20 | 2017-10-12 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
-
2020
- 2020-02-26 JP JP2022502656A patent/JP7409475B2/ja active Active
- 2020-02-26 WO PCT/JP2020/007711 patent/WO2021171417A1/ja active Application Filing
- 2020-02-26 US US17/800,943 patent/US20230082325A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258890A (ja) | 2001-02-20 | 2002-09-11 | Internatl Business Mach Corp <Ibm> | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
JP2017187797A (ja) | 2017-06-20 | 2017-10-12 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021171417A1 (ja) | 2021-09-02 |
WO2021171417A1 (ja) | 2021-09-02 |
US20230082325A1 (en) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447486B (zh) | 一种语音翻译方法及装置 | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
CN104361896B (zh) | 语音质量评价设备、方法和系统 | |
KR102296878B1 (ko) | 외국어 학습평가장치 | |
CN104505103B (zh) | 语音质量评价设备、方法和系统 | |
CN112259123A (zh) | 一种鼓点检测方法、装置及电子设备 | |
EP3509062A1 (en) | Information processing device, information processing method, and program | |
CN114072786A (zh) | 说话解析装置、说话解析方法以及程序 | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
CN112927677B (zh) | 语音合成方法和装置 | |
CN112017633B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN111739509B (zh) | 电子书音频生成方法、电子设备及存储介质 | |
JP7409475B2 (ja) | 発話終端検出装置、制御方法、及びプログラム | |
JP7412483B2 (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
JP7372402B2 (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 | |
CN114550693A (zh) | 一种多语种语音翻译方法及系统 | |
WO2021181451A1 (ja) | 音声認識装置、制御方法、及びプログラム | |
Kabari et al. | Speech recognition using MATLAB and cross-correlation technique | |
CN112951274A (zh) | 语音相似度确定方法及设备、程序产品 | |
JP6867939B2 (ja) | 計算機、言語解析方法、及びプログラム | |
JP7367839B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
CN110232911A (zh) | 跟唱识别方法、装置、存储介质及电子设备 | |
CN112542159B (zh) | 一种数据处理方法以及设备 | |
JP2007079122A (ja) | 音声処理装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220817 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231204 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7409475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |