JP2020119271A - 系列ラベリング装置、系列ラベリング方法、およびプログラム - Google Patents
系列ラベリング装置、系列ラベリング方法、およびプログラム Download PDFInfo
- Publication number
- JP2020119271A JP2020119271A JP2019009891A JP2019009891A JP2020119271A JP 2020119271 A JP2020119271 A JP 2020119271A JP 2019009891 A JP2019009891 A JP 2019009891A JP 2019009891 A JP2019009891 A JP 2019009891A JP 2020119271 A JP2020119271 A JP 2020119271A
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- fixed
- voice
- distributed
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000014509 gene expression Effects 0.000 claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 description 23
- 238000000034 method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明が対象とする問題は、音声信号とそれに対応するテキストが与えられた場合に、そのテキスト内の各シンボル(単語や文字)に対してラベルを付与するものである。
第二実施形態では、第一実施形態と異なるラベル推定方法を説明する。第二実施形態の方法の方が第一実施形態の方法と較べて計算量を削減することができる。以下、第一実施形態との相違点を中心に説明する。
第一実施形態あるいは第二実施形態で示した系列ラベリング技術は以下の設定において利用可能である。
音声認識システムを構築するためには、音声とその書き起こしテキストの組が大量に必要である。それらの組は大量に蓄積されているが、様々なメタ情報に関するラベルは付与するコストが大きいため、すべてのデータに人手で付与することは現実的でない。一方で、蓄積されているデータにメタ情報が付与されていれば、より高度な音声認識システムや、音声対話システムの構築を行うことが可能となる。第一実施形態あるいは第二実施形態に従い、音声と書き起こしテキストの組から書き起こしテキストにラベル付けを行うことで、メタ情報のラベル付きのデータを大量に作成することが可能となる。
第一実施形態あるいは第二実施形態の入力として、音声と音声認識結果(テキスト)を用いることで音声認識の後処理として利用することが可能である。音声認識結果には意味の理解や後段処理には不要な箇所が含まれたり、単なるテキストに変換されたりしてしまうため、メタ情報が抜け落ちてしまう。第一実施形態あるいは第二実施形態に従い、音声認識結果にラベル付けを行うことで、音声認識結果の不要箇所の特定や削除、音声認識では抜け落ちてしまう情報を付与することが可能になる。すなわち、音声認識結果の整形や、音声認識の後段のアプリケーションの高度化を目的とした利用が可能である。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 音声分散表現系列変換部
12 シンボル分散表現変換部
13 ラベル推定部
Claims (5)
- 音響特徴量系列を音声分散表現に変換する音声分散表現系列変換部と、
上記音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換するシンボル分散表現変換部と、
上記音声分散表現と上記シンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定するラベル推定部と、
を含む系列ラベリング装置。 - 請求項1に記載の系列ラベリング装置であって、
上記音声分散表現系列変換部は、上記音響特徴量系列と前のシンボルの前向き固定長ベクトルとを用いて生成する前向き音声分散表現と、上記音響特徴量系列と後のシンボルの後向き固定長ベクトルとを用いて生成する後向き音声分散表現とを生成するものであり、
上記ラベル推定部は、上記前向き音声分散表現と上記シンボル分散表現と前のシンボルの前向き固定長ベクトルとを用いて生成する当該シンボルの前向き固定長ベクトルと、上記後向き音声分散表現と上記シンボル分散表現と後のシンボルの後向き固定長ベクトルとを用いて生成する当該シンボルの後向き固定長ベクトルとを結合して当該シンボルの固定長ベクトルを生成するものである、
系列ラベリング装置。 - 請求項1に記載の系列ラベリング装置であって、
上記音声分散表現系列変換部は、上記音響特徴量系列と前のシンボルの固定長ベクトルとを用いて上記音声分散表現を生成するものであり、
上記ラベル推定部は、上記シンボル分散表現と前のシンボルの前向き固定長ベクトルとを用いて生成する当該シンボルの前向き固定長ベクトルと、上記シンボル分散表現と後のシンボルの後向き固定長ベクトルとを用いて生成する当該シンボルの後向き固定長ベクトルとを結合して当該シンボルの固定長ベクトルを生成した上で、上記音声分散表現と当該シンボルの固定長ベクトルとを用いて生成した固定長ベクトルから当該シンボルに対応するラベルを推定するものである、
系列ラベリング装置。 - 音声分散表現系列変換部が、音響特徴量系列を音声分散表現に変換し、
シンボル分散表現変換部が、上記音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換し、
ラベル推定部が、上記音声分散表現と上記シンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定する、
系列ラベリング方法。 - 請求項1から3のいずれかに記載の系列ラベリング装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009891A JP7211103B2 (ja) | 2019-01-24 | 2019-01-24 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
US17/425,246 US20220093079A1 (en) | 2019-01-24 | 2020-01-10 | Sequence labeling apparatus, sequence labeling method, and program |
PCT/JP2020/000696 WO2020153159A1 (ja) | 2019-01-24 | 2020-01-10 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009891A JP7211103B2 (ja) | 2019-01-24 | 2019-01-24 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119271A true JP2020119271A (ja) | 2020-08-06 |
JP7211103B2 JP7211103B2 (ja) | 2023-01-24 |
Family
ID=71736031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019009891A Active JP7211103B2 (ja) | 2019-01-24 | 2019-01-24 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220093079A1 (ja) |
JP (1) | JP7211103B2 (ja) |
WO (1) | WO2020153159A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417875B (zh) * | 2020-11-17 | 2023-08-15 | 深圳平安智汇企业信息管理有限公司 | 配置信息的更新方法、装置、计算机设备及介质 |
CN112420016B (zh) * | 2020-11-20 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004163541A (ja) * | 2002-11-11 | 2004-06-10 | Mitsubishi Electric Corp | 音声応答装置 |
WO2011052412A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
JP2015230384A (ja) * | 2014-06-05 | 2015-12-21 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
-
2019
- 2019-01-24 JP JP2019009891A patent/JP7211103B2/ja active Active
-
2020
- 2020-01-10 US US17/425,246 patent/US20220093079A1/en active Pending
- 2020-01-10 WO PCT/JP2020/000696 patent/WO2020153159A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004163541A (ja) * | 2002-11-11 | 2004-06-10 | Mitsubishi Electric Corp | 音声応答装置 |
WO2011052412A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
JP2015230384A (ja) * | 2014-06-05 | 2015-12-21 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
Non-Patent Citations (1)
Title |
---|
阿部 悠,外2名: "「韻律情報を用いた話し言葉音声認識におけるフィラー検出の改良」", 情報処理学会研究報告, vol. 2006, no. 12, JPN6022029019, 4 February 2006 (2006-02-04), JP, pages 43 - 48, ISSN: 0004823123 * |
Also Published As
Publication number | Publication date |
---|---|
US20220093079A1 (en) | 2022-03-24 |
WO2020153159A1 (ja) | 2020-07-30 |
JP7211103B2 (ja) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10592607B2 (en) | Iterative alternating neural attention for machine reading | |
US10748528B2 (en) | Language model generating device, language model generating method, and recording medium | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
JP2021140188A (ja) | 音声特徴補償装置、方法およびプログラム | |
WO2020052069A1 (zh) | 用于分词的方法和装置 | |
JP2021501903A (ja) | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム | |
JP2021033995A (ja) | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 | |
JP2018190136A (ja) | 興味判定装置、興味判定方法、及びプログラム | |
WO2020153159A1 (ja) | 系列ラベリング装置、系列ラベリング方法、およびプログラム | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN110675863A (zh) | 语音语料生成方法及装置、语音识别方法及装置 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN113947091A (zh) | 用于语言翻译的方法、设备、装置和介质 | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN113160820A (zh) | 语音识别的方法、语音识别模型的训练方法、装置及设备 | |
CN111046674B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
Tan et al. | Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition | |
CN114023309A (zh) | 语音识别系统、相关方法、装置及设备 | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
CN115240696A (zh) | 一种语音识别方法及可读存储介质 | |
CN112686059B (zh) | 文本翻译方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7211103 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |