JP6440967B2 - 文末記号推定装置、この方法及びプログラム - Google Patents
文末記号推定装置、この方法及びプログラム Download PDFInfo
- Publication number
- JP6440967B2 JP6440967B2 JP2014105124A JP2014105124A JP6440967B2 JP 6440967 B2 JP6440967 B2 JP 6440967B2 JP 2014105124 A JP2014105124 A JP 2014105124A JP 2014105124 A JP2014105124 A JP 2014105124A JP 6440967 B2 JP6440967 B2 JP 6440967B2
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- speaker
- sentence
- ending symbol
- dialog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
まず、対話に参加した話者ごとの音声を用いて、話者の発話の長さの偏り度合いと対話中の話者の口調の厳格度合いを表す尺度に基づいて対話の場を推定するとともに、対話中の各話者の発話割合を分析して、対話の場における話者の位置づけを推定する。
実世界での対話状況を表現でき、かつ対話参加者の音声から計算可能な「対話厳格度」「話者偏り度」「中心話者度」の3つの尺度を定義する。これらの3つの尺度をまとめて「対話状況特徴」とも呼ぶ。
以下、文末記号推定装置及び方法の実施形態の説明をする。
対話状況特徴計算装置1は、入力された話者ごとの音声を用いて、対話状況特徴を計算する(ステップS1)。計算された対話状況特徴は、文末記号推定部5に出力される。
発話区間検出部11は、入力された話者ごとの音声を用いて、話者ごとの発話区間を検出する(ステップS11)。検出された発話区間についての情報は、全体発話区間検出部13、基本周波数抽出部12及び中心話者度話者偏り度計算部14に出力される。
基本周波数抽出部12は、入力された話者ごとの音声及び入力された発話区間についての情報を用いて、話者ごとの基本周波数を抽出する(ステップS12)。これにより基本周波数の時系列が生成される。抽出された基本周波数についての情報は、対話厳格度推定特徴計算部15に出力される。
全体発話区間検出部13は、入力された全話者の発話区間を用いて、全体の発話区間を検出する(ステップS13)。検出された全体の発話区間についての情報は、中心話者度話者偏り度計算部14及び対話厳格度推定特徴計算部15に出力される。
中心話者度話者偏り度計算部14は、入力された全話者の発話区間についての情報及び入力された全体の発話区間についての情報を用いて、中心話者度及び話者偏り度を計算する(ステップS14、ステップS15)。中心話者度は話者ごとに計算されるため、中心話者度のことを「話者ごとの中心話者度」と表記することもある。
対話厳格度推定特徴計算部15は、入力された全話者の基本周波数の時系列及び入力された全体の発話区間を用いて、平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を計算する(ステップS16)。計算された平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合は、対話厳格度計算部16に出力される。
対話厳格度計算部16は、入力された平均基本周波数時間変化、入力された平均基本周波数加速度及び入力された非発話区間の割合及び入力された対話厳格度推定のための回帰係数を用いて、対話厳格度を計算する(ステップS17)。
音声認識部2は、入力された話者ごとの音声を用いて、音声認識結果テキストを出力する(ステップS2)。音声認識結果テキストは、テキスト解析部4及び文末記号付与部6に出力される。
音響特徴抽出部3は、入力された話者ごとの音声を用いて、音響特徴を抽出する(ステップS3)。抽出された音響特徴は、文末記号推定部5に出力される。
テキスト解析部4は、入力された音声認識結果テキストを用いて、言語特徴を求める(ステップS4)。求まった言語特徴は、文末記号推定部5に出力される。
文末記号推定部5は、入力された音響特徴、入力された言語特徴及び入力された対話状況特徴を用いて、単語境界ごとの文末記号付与判定を行う(ステップS5)。単語境界ごとの文末記号付与判定は、文末記号付与部6に出力される。
文末記号付与部6は、入力された単語境界ごとの文末記号付与判定及び入力された音声認識結果テキストを用いて、文末記号付き音声認識結果を生成する(ステップS6)。
文末記号付与モデルを事前学習により生成する機能が文末記号推定装置に設けられていてもよい。
対話厳格度推定のための回帰係数学習部17が対話状況特徴計算装置及び文末記号推定装置に設けられていてもよい。
装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
11 発話区間検出部
12 基本周波数抽出部
13 全体発話区間検出部
14 中心話者度話者偏り度計算部
15 対話厳格度推定特徴計算部
16 対話厳格度計算部
17 回帰係数学習部
171 発話区間検出部
172 基本周波数抽出部
173 全体発話区間検出部
174 対話厳格度推定特徴計算部
175 回帰分析部
2 音声認識部
3 音響特徴抽出部
4 テキスト解析部
5 文末記号推定部
6 文末記号付与部
7 文末記号付与モデル生成部
71 対話状況特徴計算装置
72 音声データベース分割部
73 文末記号正解ラベル作成部
74 音声認識部
75 音響特徴抽出部
76 テキスト解析部
77 文末記号付与モデル生成部
Claims (5)
- 複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話において前記それぞれの話者の発話の割合を示す指標とし、前記対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、前記対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、上記中心話者度、上記話者偏り度及び上記対話厳格度の少なくとも1つを対話状況特徴として、前記対話の対話状況特徴を計算する対話状況特徴計算装置と、
上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、
を含む文末記号推定装置。 - 請求項1の文末記号推定装置において、
対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成部を更に含む、
文末記号推定装置。 - 複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話において前記それぞれの話者の発話の割合を示す指標とし、前記対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、前記対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、上記中心話者度、上記話者偏り度及び上記対話厳格度の少なくとも1つを対話状況特徴として、
対話状況特徴計算装置が、前記対話の対話状況特徴を計算する対話状況特徴計算ステップと、
文末記号推定部が、上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定ステップと、
を含む文末記号推定方法。 - 請求項3の文末記号推定方法において、
文末記号付与モデル生成部が、対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成ステップを更に含む、
文末記号推定方法。 - 請求項1又は2の文末記号推定装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014105124A JP6440967B2 (ja) | 2014-05-21 | 2014-05-21 | 文末記号推定装置、この方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014105124A JP6440967B2 (ja) | 2014-05-21 | 2014-05-21 | 文末記号推定装置、この方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015219480A JP2015219480A (ja) | 2015-12-07 |
JP6440967B2 true JP6440967B2 (ja) | 2018-12-19 |
Family
ID=54778869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014105124A Active JP6440967B2 (ja) | 2014-05-21 | 2014-05-21 | 文末記号推定装置、この方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6440967B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9837069B2 (en) | 2015-12-22 | 2017-12-05 | Intel Corporation | Technologies for end-of-sentence detection using syntactic coherence |
JP6488453B2 (ja) * | 2016-06-17 | 2019-03-27 | 株式会社ワンブリッジ | プログラム及び情報伝達装置 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
JP7007617B2 (ja) * | 2018-08-15 | 2022-01-24 | 日本電信電話株式会社 | 話し終わり判定装置、話し終わり判定方法およびプログラム |
JP6605105B1 (ja) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
CN109784398B (zh) * | 2019-01-11 | 2023-12-05 | 广东奥普特科技股份有限公司 | 一种基于特征尺度和子类分裂的分类器 |
JP7229144B2 (ja) * | 2019-10-11 | 2023-02-27 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
US20230223017A1 (en) * | 2020-04-20 | 2023-07-13 | Ntt Docomo, Inc. | Punctuation mark delete model training device, punctuation mark delete model, and determination device |
WO2024029152A1 (ja) * | 2022-08-05 | 2024-02-08 | 株式会社Nttドコモ | 区切り記号挿入装置及び音声認識システム |
CN116364062B (zh) * | 2023-05-30 | 2023-08-25 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4183645B2 (ja) * | 2004-03-23 | 2008-11-19 | 株式会社国際電気通信基礎技術研究所 | 会話先導者判別装置および会話先導者判別方法 |
JP2006251042A (ja) * | 2005-03-08 | 2006-09-21 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
JP2007219286A (ja) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | 音声のスタイル検出装置、その方法およびそのプログラム |
JP5302505B2 (ja) * | 2006-12-04 | 2013-10-02 | 日本電気株式会社 | 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
JPWO2009122779A1 (ja) * | 2008-04-03 | 2011-07-28 | 日本電気株式会社 | テキストデータ処理装置、方法、プログラム |
CA2680304C (en) * | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
JP5385677B2 (ja) * | 2009-05-12 | 2014-01-08 | 日本電信電話株式会社 | 対話状態分割装置とその方法、そのプログラムと記録媒体 |
-
2014
- 2014-05-21 JP JP2014105124A patent/JP6440967B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015219480A (ja) | 2015-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
US10692500B2 (en) | Diarization using linguistic labeling to create and apply a linguistic model | |
Jemine | Real-time voice cloning | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
Kopparapu | Non-linguistic analysis of call center conversations | |
Dorn | Dialect-specific models for automatic speech recognition of African American Vernacular English | |
EP3791388A1 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
Pervaiz et al. | Emotion recognition from speech using prosodic and linguistic features | |
KR20100068530A (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
JP2020064370A (ja) | 文章記号挿入装置及びその方法 | |
KR20080018658A (ko) | 사용자 선택구간에 대한 음성비교 시스템 | |
Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
Johar | Paralinguistic profiling using speech recognition | |
Shahin | Speaking style authentication using suprasegmental hidden Markov models | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
CN114694688A (zh) | 语音分析器和相关方法 | |
Phoophuangpairoj et al. | Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs | |
Jin et al. | Speech emotion recognition based on hyper-prosodic features | |
Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
Pravena et al. | Significance of natural elicitation in developing simulated full blown speech emotion databases | |
JP2020064630A (ja) | 文章記号挿入装置及びその方法 | |
US20230114150A1 (en) | Conversation engine and related methods | |
Sárosi et al. | Automated transcription of conversational Call Center speech–with respect to non-verbal acoustic events | |
US11501091B2 (en) | Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6440967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |