JP7420216B2 - 音声評価システム、音声評価方法、及びコンピュータプログラム - Google Patents
音声評価システム、音声評価方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7420216B2 JP7420216B2 JP2022507978A JP2022507978A JP7420216B2 JP 7420216 B2 JP7420216 B2 JP 7420216B2 JP 2022507978 A JP2022507978 A JP 2022507978A JP 2022507978 A JP2022507978 A JP 2022507978A JP 7420216 B2 JP7420216 B2 JP 7420216B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- voice
- evaluation system
- group
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims description 289
- 238000004590 computer program Methods 0.000 title claims description 18
- 238000001514 detection method Methods 0.000 claims description 91
- 230000008451 emotion Effects 0.000 claims description 70
- 230000005856 abnormality Effects 0.000 claims description 24
- 230000002996 emotional effect Effects 0.000 description 63
- 238000010586 diagram Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 14
- 238000000034 method Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
Description
第1実施形態に係る音声評価システムについて、図1から図3を参照して説明する。
まず、図1を参照しながら、第1実施形態に係る音声評価システムの全体構成について説明する。図1は、第1実施形態に係る音声評価システムの全体構成を示すブロック図である。
次に、図2を参照しながら、第1実施形態に係る音声評価システム10のハードウェア構成について説明する。図2は、第1実施形態に係る音声評価システムのハードウェア構成を示すブロック図である。
次に、図3を参照しながら、第1実施形態に係る音声評価システム10の動作の流れについて説明する。図3は、第1実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
次に、第1実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
第2実施形態に係る音声評価システムについて、図4及び図5を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第1実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
まず、図4を参照しながら、第2実施形態に係る音声評価システムの全体構成について説明する。図4は、第2実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図4では、図1で示した構成要素と同様のものに同一の符号を付している。
第2実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
次に、図5を参照しながら、第2実施形態に係る音声評価システム10の動作の流れについて説明する。図5は、第2実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
次に、第2実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
第3実施形態に係る音声評価システムについて、図6及び図7を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第1及び第2実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
まず、図6を参照しながら、第3実施形態に係る音声評価システムの全体構成について説明する。図6は、第3実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図6では、図1及び図4で示した構成要素と同様のものに同一の符号を付している。
第3実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
次に、図7を参照しながら、第3実施形態に係る音声評価システム10の動作の流れについて説明する。図7は、第3実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
次に、第3実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
第4実施形態に係る音声評価システムについて、図8及び図9を参照して説明する。なお、第4実施形態は、上述した第1から第3実施形態と比べて一部の動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第1から第3実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
まず、図8を参照しながら、第4実施形態に係る音声評価システムの全体構成について説明する。図8は、第4実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図8では、図1、図4、及び図6で示した構成要素と同様のものに同一の符号を付している。
第4実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。なお、評価データ生成部140については、例えばプロセッサ11(図2参照)により実現すればよい。
次に、図9を参照しながら、第4実施形態に係る音声評価システム10の動作の流れについて説明する。図9は、第4実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
次に、第4実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
次に、第5実施形態に係る音声評価ステム10について、図10から図14を参照して説明する。なお、第5実施形態は、上述した第4実施形態の評価データ生成部140で生成される評価データの具体例を示すものである。よって、システム構成、ハードウェア構成、及び動作の流れについては、第4実施形態と同一であってもよいため、詳しい説明を省略するものとする。
次に、第5実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
第6実施形態に係る音声評価システムについて、図15及び図16を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態と比べて一部の構成や動作が異なるのみであり、その他の部分については概ね同様である。よって、以下では第1から第5実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
まず、図15を参照しながら、第6実施形態に係る音声評価システムの全体構成について説明する。図15は、第6実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図15では、図1、図4、図6及び図8で示した構成要素と同様のものに同一の符号を付している。
第6実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
次に、図16を参照しながら、第6実施形態に係る音声評価システム10の動作の流れについて説明する。図16は、第6実施形態に係る音声評価システムの動作の流れを示すフローチャートである。なお、図16では、図5、図7、及び図9で示した処理と同様の処理に同一の符号を付している。
次に、第6実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
第7実施形態に係る音声評価システムについて、図17を参照して説明する。なお、第7実施形態は、上述した第1から第6実施形態と比べて一部の構成や動作が異なるのみであり、その他の部分については概ね同様である。よって、以下では第1から第6実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
第7実施形態に係る音声評価システム10の全体構成については、第1から第6実施形態に係る音声評価システム10の全体構成(図1、図4、図6、図8、及び図15参照)と同一であってもよいため、その説明については省略する。
第7実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
次に、図17を参照しながら、第7実施形態に係る音声評価システム10で実行可能な領域ごとの音声評価について説明する。図17は、第7実施形態に係る音声評価システムによるエリアごとの音声評価を示す概念図である。以下では、舞台の観客である集団が発する音声を評価するケースを例にして説明する。
第7実施形態に係る音声評価システム10の動作時には、各エリア(例えば、図17のエリアA、エリアB、及びエリアC)から取得された音声の各々について、第1から第6実施形態に係る音声評価システム10と同様の処理(図3、図5、図7、図9、及び図16参照)が実行される。即ち、エリアごとに同様の処理が実行されるのみで、処理自体に変更はない。このため、具体的な処理の流れについては説明を省略する。
次に、第7実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
付記1に記載の視点位置推定システムは、複数人からなる集団が発する音声を取得する取得手段と、前記取得した音声から感情に応じた要素を検出する検出手段と、前記検出された要素に基づいて、前記取得した音声を評価する評価手段とを備えることを特徴とする音声評価システムである。
付記2に記載の音声評価システムは、前記検出手段は、前記取得した音声から複数種類の感情に応じた要素を検出することを特徴とする付記1に記載の音声評価システムである。
付記3に記載の音声評価システムは、前記評価手段は、前記複数種類の感情に応じた要素に基づいて、感情ごとに前記取得した音声を評価することを特徴とする付記2に記載の音声評価システムである。
付記4に記載の音声評価システムは、前記評価手段は、前記取得した音声の評価結果を示す評価データを生成することを特徴とする付記1から3のいずれか一項に記載の音声評価システムである。
付記5に記載の音声評価システムは、前記評価手段は、前記評価データを時系列データとして生成することを特徴とする付記4に記載の音声評価システムである。
付記6に記載の音声評価システムは、前記評価手段は、前記評価結果をグラフ化することで前記評価データを生成することを特徴とする付記4又は5のいずれか一項に記載の音声評価システムである。
付記7に記載の音声評価システムは、前記評価手段は、前記取得した音声の評価結果から、前記集団の周囲環境における異常の発生を検知することを特徴とする付記1から6のいずれか一項に記載の音声評価システムである。
付記8に記載の音声評価システムは、前記取得手段は、前記集団が発する音声を複数の領域に分けて取得し、前記評価手段は、前記領域ごとに前記取得した音声を評価することを特徴とする付記1から7のいずれか一項に記載の音声評価システムである。
付記9に記載の音声評価方法は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価することを特徴とする音声評価方法である。
付記10に記載のコンピュータプログラムは、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
110 音声取得部
111 発生区間記録部
112 無音区間記録部
120 感情要素検出部
121 第1要素検出部
122 第2要素検出部
123 第3要素検出部
124 第4要素検出部
125 悲鳴要素検出部
130 音声評価部
131 第1評価部
132 第2評価部
133 第3評価部
134 第4評価部
135 異常判定部
140 評価データ生成部
200 マイク
500 観客席
Claims (11)
- 複数人からなる集団が発する音声を取得する取得手段と、
前記取得した音声から複数種類の感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声を評価する評価手段と
を備えることを特徴とする音声評価システム。 - 前記評価手段は、前記複数種類の感情に応じた要素に基づいて、感情ごとに前記取得した音声を評価することを特徴とする請求項1に記載の音声評価システム。
- 前記評価手段は、前記取得した音声の評価結果を示す評価データを生成することを特徴とする請求項1又は2に記載の音声評価システム。
- 前記評価手段は、前記評価データを時系列データとして生成することを特徴とする請求項3に記載の音声評価システム。
- 前記評価手段は、前記評価結果をグラフ化することで前記評価データを生成することを特徴とする請求項3又は4のいずれか一項に記載の音声評価システム。
- 前記評価手段は、前記取得した音声の評価結果から、前記集団の周囲環境における異常の発生を検知することを特徴とする請求項1から5のいずれか一項に記載の音声評価システム。
- 前記取得手段は、前記集団が発する音声を複数の領域に分けて取得し、
前記評価手段は、前記領域ごとに前記取得した音声を評価する
ことを特徴とする請求項1から6のいずれか一項に記載の音声評価システム。 - 複数人からなる集団が発する音声を取得し、
前記取得した音声から複数種類の感情に応じた要素を検出し、
前記検出された要素に基づいて、前記取得した音声を評価する
ことを特徴とする音声評価方法。 - 複数人からなる集団が発する音声を取得し、
前記取得した音声から複数種類の感情に応じた要素を検出し、
前記検出された要素に基づいて、前記取得した音声を評価する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。 - 複数人からなる集団が発する音声を取得する取得手段と、
前記取得した音声から感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声の評価結果を示す評価データを時系列データとして生成する評価手段と
を備えることを特徴とする音声評価システム。 - 複数人からなる集団が発する音声を複数の領域に分けて取得する取得手段と、
前記取得した音声から感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声を前記領域ごとに評価する評価手段と
を備えることを特徴とする音声評価システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/012381 WO2021186691A1 (ja) | 2020-03-19 | 2020-03-19 | 音声評価システム、音声評価方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021186691A1 JPWO2021186691A1 (ja) | 2021-09-23 |
JP7420216B2 true JP7420216B2 (ja) | 2024-01-23 |
Family
ID=77772013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022507978A Active JP7420216B2 (ja) | 2020-03-19 | 2020-03-19 | 音声評価システム、音声評価方法、及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230138068A1 (ja) |
EP (1) | EP4123647A4 (ja) |
JP (1) | JP7420216B2 (ja) |
WO (1) | WO2021186691A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053557A (ja) | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
JP2012227712A (ja) | 2011-04-19 | 2012-11-15 | Hoshun Ri | 視聴覚システム、リモコン端末、会場機器制御装置、視聴覚システムの制御方法、及び視聴覚システムの制御プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2838158C3 (de) | 1978-09-01 | 1982-12-16 | Jagenberg-Werke AG, 4000 Düsseldorf | Beleimungsvorrichtung für eine Etikettiermaschine |
US7999857B2 (en) * | 2003-07-25 | 2011-08-16 | Stresscam Operations and Systems Ltd. | Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system |
JP2005354519A (ja) | 2004-06-11 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 撮像装置および撮像プログラム |
JP2007004001A (ja) | 2005-06-27 | 2007-01-11 | Tokyo Electric Power Co Inc:The | オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体 |
-
2020
- 2020-03-19 US US17/910,550 patent/US20230138068A1/en active Pending
- 2020-03-19 EP EP20925353.3A patent/EP4123647A4/en not_active Withdrawn
- 2020-03-19 WO PCT/JP2020/012381 patent/WO2021186691A1/ja unknown
- 2020-03-19 JP JP2022507978A patent/JP7420216B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053557A (ja) | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
JP2012227712A (ja) | 2011-04-19 | 2012-11-15 | Hoshun Ri | 視聴覚システム、リモコン端末、会場機器制御装置、視聴覚システムの制御方法、及び視聴覚システムの制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021186691A1 (ja) | 2021-09-23 |
EP4123647A1 (en) | 2023-01-25 |
JPWO2021186691A1 (ja) | 2021-09-23 |
EP4123647A4 (en) | 2023-02-22 |
US20230138068A1 (en) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10580435B2 (en) | Sentiment analysis of mental health disorder symptoms | |
US10559323B2 (en) | Audio and video synchronizing perceptual model | |
JP6358093B2 (ja) | 分析対象決定装置及び分析対象決定方法 | |
WO2014069076A1 (ja) | 会話分析装置及び会話分析方法 | |
JP2007004001A (ja) | オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体 | |
JP5673429B2 (ja) | 心音情報処理装置、心音情報処理方法、心音情報処理プログラム | |
JP6176041B2 (ja) | 情報処理装置及びプログラム | |
JP2020148931A (ja) | 議論分析装置及び議論分析方法 | |
JP5700114B2 (ja) | 通話支援装置、通話支援方法 | |
JP7028307B2 (ja) | ハウリング抑圧装置、その方法、およびプログラム | |
JP7420216B2 (ja) | 音声評価システム、音声評価方法、及びコンピュータプログラム | |
JP3896760B2 (ja) | 対話記録編集装置、方法及び記憶媒体 | |
JP6327252B2 (ja) | 分析対象決定装置及び分析対象決定方法 | |
JP7340630B2 (ja) | ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション | |
JP2020086023A (ja) | 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム | |
JP6639857B2 (ja) | 聴力検査装置、聴力検査方法および聴力検査プログラム | |
JP7452558B2 (ja) | 処理装置、処理方法及びプログラム | |
JP2023012335A (ja) | 異音特定装置、異音特定方法、及び、異音特定プログラム | |
JP6589040B1 (ja) | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム | |
JP6838739B2 (ja) | 近時記憶支援装置 | |
JP2021519122A (ja) | 呼吸障害のある被験者の検出 | |
KR102616058B1 (ko) | 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 | |
JP2019148849A (ja) | 理解度判定システムおよび理解度判定プログラム | |
JP7444820B2 (ja) | 感情判定装置、感情判定方法、及びプログラム | |
JP7389070B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231225 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7420216 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |