JP6891662B2 - 音声評価プログラム、音声評価方法および音声評価装置 - Google Patents

音声評価プログラム、音声評価方法および音声評価装置 Download PDF

Info

Publication number
JP6891662B2
JP6891662B2 JP2017123588A JP2017123588A JP6891662B2 JP 6891662 B2 JP6891662 B2 JP 6891662B2 JP 2017123588 A JP2017123588 A JP 2017123588A JP 2017123588 A JP2017123588 A JP 2017123588A JP 6891662 B2 JP6891662 B2 JP 6891662B2
Authority
JP
Japan
Prior art keywords
voice
evaluation
distribution
unit
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017123588A
Other languages
English (en)
Other versions
JP2019008130A (ja
Inventor
紗友梨 中山
紗友梨 中山
太郎 外川
太郎 外川
猛 大谷
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017123588A priority Critical patent/JP6891662B2/ja
Priority to EP18821009.0A priority patent/EP3644316A4/en
Priority to CN201880003613.7A priority patent/CN109791774B/zh
Priority to PCT/JP2018/013867 priority patent/WO2018235380A1/ja
Publication of JP2019008130A publication Critical patent/JP2019008130A/ja
Priority to US16/354,260 priority patent/US11232810B2/en
Application granted granted Critical
Publication of JP6891662B2 publication Critical patent/JP6891662B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、音声評価プログラム等に関する。
近年、多くの企業が顧客満足度を重視する傾向にあり、対応者と顧客との会話における、応対者の印象や顧客の感情を把握したいというニーズが高まっている。応対者の印象や、顧客の感情は、音声に現れることが多い。
たとえば、従来技術には、通話中の音声のピッチ周波数の上下幅に基づいて、音声の印象を判定するものがある。図15は、従来技術を説明するための図である。図15のグラフ5の横軸は時間を示す軸であり、縦軸は周波数を示す軸である。
従来技術では、ピッチ周波数の上下幅が大きいものを明瞭(明るい)と判定し、ピッチ周波数の上下幅が小さいものを不明瞭(暗い)と判定する。ピッチ周波数の上下幅は、ある期間中のピッチ周波数の最大値と最小値との差である。
たとえば、従来技術は、グラフ5の期間T1において、上下幅5aが大きいため、音声の印象が明瞭であると判定する。従来技術は、グラフ5の期間T2において、上下幅5bが小さいため、音声の印象が不明瞭であると判定する。
特開2015−87557号公報 特開2006−267465号公報
しかしながら、上述した従来技術では、音声を正確に評価することができないという問題がある。
ピッチ周波数を検出する処理では、特性上、半ピッチや倍ピッチを誤って算出する場合がある。このため、従来技術のように、単純に、ピッチ周波数の上下幅の大小により、音声の明瞭・不明瞭を判定すると、音声を正確に評価できない場合がある。
図16は、正確なピッチ周波数を算出した場合のグラフを示す図である。図16のグラフ6の横軸は時間を示す軸であり、縦軸は周波数を示す軸である。グラフ6は、正確なピッチ周波数を算出した場合を示すものである。グラフ6では、ピッチ周波数の上下幅6aが小さいため、音声が不明瞭であると判定できる。
図17は、半ピッチ/倍ピッチを算出した場合のグラフを示す図である。図17のグラフ7の横軸は時間を示す軸であり、縦軸は周波数を示す軸である。グラフ7は、誤って、半ピッチ/倍ピッチを算出した場合を示すものである。グラフ7では、ピッチ周波数の上下幅7aが大きくなってしまい、実際には、音声が不明瞭であるにも関わらず、音声が明瞭であると判定してしまう。
1つの側面では、本発明は、音声を正確に評価することができる音声評価プログラム、音声評価方法および音声評価装置を提供することを目的とする。
第1の案では、コンピュータに下記の処理を実行させる。コンピュータは、音声信号を解析してピッチ周波数を検出する。コンピュータは、検出したピッチ周波数の検出頻度の分布に基づいて、検出したピッチ周波数のうち評価対象とする評価対象領域を選択する。コンピュータは、検出頻度の分布と選択した評価対象領域に基づいて、音声を評価する。
音声を正確に評価することができる。
図1は、本実施例1に係る音声評価装置の構成を示す機能ブロック図である。 図2は、本実施例1に係る音声評価部の構成を示す機能ブロック図である。 図3は、ヒストグラムの一例を示す図である。 図4は、本実施例1に係る音声評価部の処理手順を示すフローチャートである。 図5は、音声評価装置のその他の処理を説明するための図である。 図6は、本実施例2に係る音声評価システムの構成を示す図である。 図7は、本実施例2に係る音声評価装置の構成を示す機能ブロック図である。 図8は、本実施例2に係る音声評価部の構成を示す機能ブロック図である。 図9は、本実施例2に係る平常時分布テーブルのデータ構造の一例を示す図である。 図10は、本実施例3に係る音声評価システムの構成を示す図である。 図11は、本実施例3に係る収録機器の構成を示す機能ブロック図である。 図12は、本実施例3に係る音声評価装置の構成を示す機能ブロック図である。 図13は、本実施例3に係る音声評価部の構成を示す機能ブロック図である。 図14は、音声評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図15は、従来技術を説明するための図である。 図16は、正確なピッチ周波数を算出した場合のグラフを示す図である。 図17は、半ピッチ/倍ピッチを算出した場合のグラフを示す図である。
以下に、本願の開示する音声評価プログラム、音声評価方法および音声評価装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例1に係る音声評価装置の構成を示す機能ブロック図である。図1に示すように、この音声評価装置100は、話者(図示略)の音声を集音するマイク10に接続される。マイク10は、集音した音声の信号を、音声評価装置100に出力する。以下の説明では、マイク10が集音した音声の信号を「音声信号」と表記する。
音声評価装置100は、AD(Analog-to-Digital)変換部101、音声ファイル化部102、音声評価部103、評価結果格納部104、記憶装置105、出力部106を有する。
AD変換部101は、マイク10から音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部101は、音声信号(アナログ信号)を、音声信号(デジタル信号)に変換する。AD変換部101は、音声信号(デジタル信号)を、音声ファイル化部102、音声評価部103に出力する。以下の説明では、AD変換部101から出力される音声信号(デジタル信号)を単に音声信号と表記する。
音声ファイル化部102は、音声信号を所定の音声ファイルフォーマットにより、音声ファイルに変換する処理部である。たとえば、音声ファイルは、各時刻と、音声信号の強さとをそれぞれ対応づけた情報を含む。音声ファイル化部102は、音声ファイルを、記憶部105の音声ファイルテーブル105aに格納する。以下の説明では、便宜上、音声ファイルに含まれる時刻と音声信号の強さとの関係の情報を単に、音声信号と記載する。
なお、音声ファイル化部102は、入力装置(図示略)から話者情報を取得し、話者情報を音声ファイルに添付する。たとえば、話者情報は、話者を一意に識別する情報である。
音声評価部103は、音声信号を基にして、話者の音声の印象を評価する処理部である。たとえば、話者の音声の印象の評価結果は「印象が良い」、「普通」、「印象が悪い」のいずれかとなる。音声評価部103は、話者情報と、評価結果の情報とを、評価結果格納部104に出力する。
評価結果格納部104は、話者情報と、評価結果とを対応づけて、記憶装置105の評価結果テーブル105bに格納する処理部である。
記憶装置105は、音声ファイルテーブル105aおよび評価結果テーブル105bを記憶する。記憶装置105は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
音声ファイルテーブル105aは、音声ファイル化部102から出力される音声ファイルを格納するテーブルである。評価結果テーブル105bは、評価結果格納部104により格納される話者情報と、評価結果とを対応づけたテーブルである。
出力部106は、記憶装置105に格納された評価結果テーブル105bを、表示装置に出力することで、評価結果を表示させる処理部である。また、出力部106は、音声ファイルテーブル105aに格納された音声ファイルを他の外部装置に出力してもよい。
ここで、図1に示したAD変換部101、音声ファイル化部102、音声評価部103、評価結果格納部104、出力部106は、所定の制御部(図示略)に対応する。たとえば、制御部は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
続いて、図1に示した音声評価部103の構成について説明する。図2は、本実施例1に係る音声評価部の構成を示す機能ブロック図である。図2に示すように、この音声評価部103は、ピッチ検出部110、分布算出部111、広がり算出部112、記憶部113、推定部114、評価部115を有する。
ピッチ検出部110は、音声ファイルの音声信号を周波数解析することで、ピッチ周波数を検出する処理部である。ピッチ周波数は、音声信号の基本周波数に対応するものである。ピッチ検出部110は、ピッチ周波数の情報を、分布算出部111に出力する。
ピッチ検出部110は、音声ファイルの音声信号から、発話区間を検出し、発話区間の音声信号に基づいて、ピッチ周波数を検出しても良い。たとえば、ピッチ検出部110は、音声信号の強さが閾値以上となる時刻を発話区間の開始時刻とする。ピッチ検出部110は、開始時刻以降において、音声信号の強さが閾値未満となる時刻を発話区間の終了時刻とする。ピッチ検出部110は、開始時刻から終了時刻までの区間を、発話区間とする。
ピッチ検出部110は、発話区間の音声信号を、所定の時間幅となる複数の区間に分割し、区間毎の音声信号を周波数解析することで、区間毎のピッチ周波数を検出する。ピッチ検出部110は、発話区間に含まれる複数の区間毎のピッチ周波数を、分布算出部111に出力する。
たとえば、ピッチ検出部110は、文献(D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis, W.B.Kleijn and K.K.Pailwal (Eds.), Elsevier,pp.495−518,1995)に基づいて、ピッチ周波数を検出しても良い。
分布算出部111は、所定区間内の複数のピッチ周波数を基にして、ヒストグラムを算出する処理部である。図3は、ヒストグラムの一例を示す図である。図3に示すヒストグラム20の横軸は、ピッチ周波数に対応する軸であり、縦軸は検出頻度に対応する軸である。このヒストグラム20は、ピッチ周波数の検出頻度の分布に対応するものである。
分布算出部111は、下記の処理を実行することで、ヒストグラム20の中心部と裾部とを特定する。分布算出部111は、所定区間内の各ピッチ周波数の平均μを算出する。分布算出部111は、所定区間内の各ピッチ周波数の標準偏差σを算出する。たとえば、分布算出部111は、ヒストグラム20の中心部を「μ−σ〜μ+σ」とする。分布算出部111は、ヒストグラム20の裾部を「(μ−σ)/2〜(μ+σ)/2」、「2×(μ−σ)/2〜2×(μ+σ)」とする。
たとえば、図3において、ピッチ周波数の範囲Aが中心部となり、範囲B1,B2が裾部となる。なお、分布算出部111は、上記以外の処理により、ヒストグラム20の中心部および裾部を算出してもよい。分布算出部111は、ヒストグラム20の概形から中心の山の始点と終点との間を中心部として特定し、この中心部以外の範囲を裾部として特定してもよい。
分布算出部111は、所定区間内の複数のピッチ周波数の情報あるいはヒストグラム20の情報と、中心部の情報と、裾部の情報とを、広がり算出部112に出力する。
広がり算出部112は、ヒストグラム20を補正した上で、ヒストグラム20の広がりを算出する処理部である。下記に説明するように、補正したヒストグラム20の広がりは、補正したピッチ周波数に基づく標準偏差に対応する。
たとえば、広がり算出部112は、所定区間内の複数のピッチ周波数を、中心部に対応するピッチ周波数と、裾部に対応するピッチ周波数に分類する。広がり算出部112は、中央部に対応する各ピッチ周波数に重み「α」をそれぞれ乗算することで、中心部の各ピッチ周波数を補正する。αの値をたとえば「1」とするが、管理者が適宜変更してもよい。
広がり算出部112は、裾部に対応する各ピッチ周波数に重み「β」をそれぞれ乗算することで、裾部の各ピッチ周波数を補正する。βの値をたとえば「0.1」とするが、管理者が適宜変更してもよい。
広がり算出部112は、補正した中央部および裾部の各ピッチ周波数を基にして、ピッチ周波数の標準偏差を算出する。このように、補正した中央部および裾部の各ピッチ周波数を基にして算出されるピッチ周波数の標準偏差が、補正したヒストグラム20の広がりに対応するものとなる。広がり算出部112は、補正したヒストグラム20の広がりに対応する標準偏差の情報を、推定部114および評価部115に出力する。
記憶部113は、平常時分布テーブル113aを有する。記憶部113は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
平常時分布テーブル113aは、平常時における話者のヒストグラムの広がりの情報を保持するテーブルである。たとえば、平常時分布テーブル113aは、話者情報と、標準偏差とを対応づける。平常時分布テーブル113aの標準偏差は、後述する推定部114によって推定される。
推定部114は、話者の平常時における標準偏差を推定する処理部である。推定部114は、話者情報と、平常時における標準偏差とを対応づけて、平常時分布テーブル113aに格納する。推定部114は、音声ファイルに添付されている話者情報を取得する。
推定部114は、話者情報を取得し、話者情報に対応する標準偏差が平常時分布テーブル113aに格納されていない場合には、「初期動作」を行う。一方、推定部114は、話者情報に対応する標準偏差が、平常時分布テーブル113aに格納されている場合には、「更新動作」を行う。以下において、初期動作、更新動作について順に説明する。
推定部114が実行する初期動作について説明する。推定部114は、発話区間の開始時刻から、所定時間後(1分後)までの区間を初期区間とし、初期区間における標準偏差を、広がり算出部112から取得する。初期区間における標準偏差は、上記のように、重みα、βにより、ピッチ周波数を補正した後に、算出される標準偏差である。
なお、推定部114が、初期区間おける標準偏差を算出しても良い。すなわち、推定部114は、初期区間内の複数のピッチ周波数を、中心部に対応するピッチ周波数と、裾部に対応するピッチ周波数に分類する。推定部114は、中央部に対応する各ピッチ周波数に重み「α」をそれぞれ乗算することで、中心部の各ピッチ周波数を補正する。推定部114は、裾部に対応する各ピッチ周波数に重み「β」をそれぞれ乗算することで、裾部の各ピッチ周波数を補正する。推定部114は、補正した中央部および裾部の各ピッチ周波数を基にして、ピッチ周波数の標準偏差を算出する。
推定部114は、上記のように初期動作を行い、話者情報と、初期区間の標準偏差とを対応づけて、平常時分布テーブル113aに登録する。
推定部114が実行する更新動作について説明する。推定部114は、平常時分布テーブル113aから、話者情報に対応する標準偏差を取得する。また、推定部114は、広がり算出部112から、所定区間内の標準偏差を取得する。以下の説明では、平常時分布テーブル113aから取得した、標準偏差を「平常時標準偏差」と表記し、広がり算出部112から取得した標準偏差を「評価標準偏差」と表記する。
推定部114は、式(1)に基づいて、新たな平常時標準偏差を算出し、算出した平常時標準偏差により、平常時分布テーブル113aの平常時標準偏差を更新する。
平常時標準偏差=0.8×平常時標準偏差+0.2×評価標準偏差・・・(1)
推定部114は、広がり算出部112から、所定区間内の標準偏差(評価標準偏差)を受信する度に、上記処理を繰り返し実行し、平常時分布テーブル113aを更新する。
なお、推定部114は、評価部115から、話者情報を取得し、平常時標準偏差の要求を受け付けた場合に、話者情報に対応する平常時標準偏差を平常時分布テーブル113aから取得し、平常時標準偏差を、評価部115に出力する。
評価部115は、平常時標準偏差と、評価標準偏差とを基にして、話者の音声の印象を評価する処理部である。たとえば、評価部115は、音声ファイルに添付された話者情報を、推定部114に出力して、平常時標準偏差を取得する。評価部115は、評価標準偏差を、広がり算出部112から取得する。
評価部115は、評価標準偏差が平常時標準偏差よりも大きい場合には、印象が良いと評価する。評価部115は、評価標準偏差が平常時標準偏差と同等である場合には、印象が普通であると判定する。評価部115は、評価標準偏差が平常時標準偏差より小さい場合には、印象がよいと判定する。
また、評価部115は、下記の様に評価を行ってもよい。たとえば、評価部115は、評価標準偏差が平常時標準偏差よりも大きく、評価標準偏差が平常時標準偏差との差が閾値以上である場合に、印象が良いと評価する。評価部115は、評価標準偏差が平常時標準偏差との差が閾値未満である場合に、印象が普通であると評価する。評価部115は、評価標準偏差が平常時標準偏差よりも小さく、評価標準偏差が平常時標準偏差との差が閾値以上である場合に、印象が悪いと評価する。
評価部115は、話者情報と、評価結果の情報とを、評価結果格納部104に出力する。
次に、本実施例1に係る音声評価装置100の音声評価部103の処理手順について説明する。図4は、本実施例1に係る音声評価部の処理手順を示すフローチャートである。図4に示すように、この音声評価部103のピッチ検出部110は、音声信号を受信する(ステップS101)。
ピッチ検出部110は、音声信号を解析して、ピッチ周波数を算出する(ステップS102)。音声評価部103の分布算出部111は、ピッチ周波数の分布を算出する(ステップS103)。ステップS103において、分布算出部111は、ピッチ周波数の分布を算出する処理は、上記のように、各ピッチ周波数に基づいて、ヒストグラム20の中心部および裾部を算出する処理に対応する。
音声評価部103の広がり算出部112は、分布の広がりを算出する(ステップS104)。ステップS104において、分布の広がりを算出する処理は、上記の評価標準偏差を算出する処理に対応する。
音声評価部103の推定部114は、平常時の分布の広がりを算出する(ステップS105)。平常時の分布の広がりを算出する処理は、上記の平常時標準偏差を算出する処理に対応する。
音声評価部103の評価部115は、平常時標準偏差と評価標準偏差とを基にして、音声を評価する(ステップS106)。
音声評価部103は、音声終了の場合には(ステップS107,Yes)、処理を終了する。一方、音声評価部103は、音声終了でない場合には(ステップS107,No)、分析開始位置を更新し(ステップS108)、ステップS102に移行する。
次に、本実施例1に係る音声評価装置100の効果について説明する。音声評価装置100は、音声信号を解析して、ピッチ周波数の検出頻度の分布を作成し、分布の裾部分を抑える補正を行い、補正後の分布に基づき、音声の評価を行う。このため、ピッチ周波数を検出する処理により、仮に、半ピッチや倍ピッチを算出した場合にでも、これらのピッチは、裾部のピッチ周波数に分類され、影響を抑えた後に、音声の評価を行うことができ、音声を正確に評価することができる。たとえば、実際に明るい声であるにもかかわらず、半ピッチや倍ピッチが誤って算出された場合でも、暗い声と評価することを抑止することができる。
音声評価装置100は、分布(ヒストグラム)の中心部に対応するピッチ周波数に重みαを乗算し、分布の裾部分に対応するピッチ周波数に重みβを乗算することで、分布を補正する処理を実行するため、半ピッチや倍ピッチの影響による誤り判定を抑止することができる。
音声評価装置100の推定部114は、話者の平常時の分布の広がりを推定し、評価部115が、平常時の分布の広がりと、現在の分布の広がりとを比較して、音声の印象を評価する。このため、話者自身の平常時の分布の広がりに基づいた音声の評価を行うことができる。
音声評価装置114の推定部は、話者情報に対応する平常時の分布の広がり(標準偏差)が、平常時分布テーブル113aに格納されている場合には、「更新動作」を行う。これにより、話者に関する平常時の分布をより適切なものに補正することができる。
なお、音声評価装置100は、一例として、分布(ヒストグラム)の中心部に対応するピッチ周波数に重みαを乗算し、分布の裾部分に対応するピッチ周波数に重みβを乗算することで、分布を補正する場合について説明した。この処理は、分布に含まれる裾部のピッチ周波数の影響を取り除くという点において、分布に含まれる中央部のピッチ周波数を選択し、選択したピッチ周波数の標準偏差を基にして、音声を評価しているとも言える。
音声評価装置100のピッチ検出部110は、発話区間の音声信号を、所定の時間幅となる複数の区間に分割し、区間毎の音声信号を周波数解析することで、区間毎のピッチ周波数を検出していたが、これに限定されるものではない。たとえば、ピッチ検出部110は、所定数の区間から検出した各ピッチ周波数の平均値を、ピッチ周波数として分布算出部111に出力してもよい。ピッチ検出部110は、所定数の区間から検出した各ピッチ周波数の上限値を、ピッチ周波数として分布算出部111に出力してもよい。ピッチ検出部110は、所定数の区間から検出した各ピッチ周波数の下限値を、ピッチ周波数として分布算出部111に出力してもよい。これにより、話者や環境に合わせて、ピッチ周波数を利用することができる。
音声評価装置100の広がり算出部112は、発話区間に含まれる各ピッチ周波数の標準偏差を分布の広がりとして算出していたが、これに限定されるものではない。たとえば、広がり算出部112は、発話区間に含まれる各ピッチ周波数の分散、範囲、平方和、四分位範囲のいずれかを、分布の広がりとして算出してもよい。
ところで、本実施例1に係る音声評価装置100は、以下に説明するように、発話区間のヒストグラムの概形を基にして、話者の音声を評価してもよい。図5は、音声評価装置のその他の処理を説明するための図である。図5に示すように、音声評価装置100は、発話区間の複数のピッチ周波数を基にして、ヒストグラム25を算出する。ヒストグラム25の横軸は、ピッチ周波数に対応する軸であり、縦軸は検出頻度に対応する軸である。
音声評価装置100は、パターンマッチングなどを行って、ヒストグラム25の概形のおける中心部Cと、裾部D1,D2とを特定する。音声評価装置100は、中心部Cの検出頻度に重みαを乗算し、裾部D1,D2の検出頻度に重みβを乗算することで、ヒストグラム25を補正する。補正後のヒスヒストグラムをヒストグラム26と表記する。たとえば、重いαを「1」とし、重みβを「0.1」とする。
音声評価装置100は、補正後のヒストグラム26の広がりの大きさを基にして、話者の音声の印象を判定する。たとえば、音声評価装置100は、ヒストグラム26の検出頻度が所定頻度以上となる範囲を、ヒストグラム26の広がりとして特定する。音声評価装置100は、ヒストグラム26の広がりが、所定の閾値以上である場合には、話者の印象が明るいと評価する。一方、音声評価装置100は、ヒストグラム26の広がりが、所定の閾値以上である場合には、話者の印象が暗いと評価する。
たとえば、半ピッチ/倍ピッチは分布(ヒストグラム25)の裾部に存在しているため、裾部の重みを小さくし、中心部の重みを大きくして、ヒストグラム25を補正することで、誤って評価することを抑止することができる。
図6は、本実施例2に係る音声評価システムの構成を示す図である。図6に示すように、この音声評価システムは、携帯端末2a、端末装置2b、分岐コネクタ3、収録機器150、クラウド160を有する。携帯端末2aは、電話網15aを介して、分岐コネクタ3に接続される。端末装置2bは、分岐コネクタ3に接続される。分岐コネクタ3は、収録機器150に接続される。収録機器150は、インターネット網15bを介して、クラウド160に接続される。たとえば、クラウド160には、音声評価装置200が含まれる。図示を省略するが、音声評価装置200は、複数のサーバによって構成されていてもよい。携帯端末2aおよび端末装置2bは、マイク(図示略)に接続される。
話者1aによる音声は、携帯端末2aのマイクにより集音され、集音された音声信号は、分岐コネクタ3を介して、収録機器150に送信される。以下の説明では、話者1aの音声信号を、「第1音声信号」と表記する。
携帯端末2aは、第1音声信号に、話者1aの属性情報を付与する。たとえば、属性情報は、性別情報と、声の高さ情報とを含む。性別は、話者の性別を一意に識別するものである。声の高さか情報は、話者の声が高いか低いかを示す情報である。たとえば、話者1aは、自身の属性情報を、携帯端末2aに登録しておく。
話者1bによる音声は、端末装置2bのマイクにより集音され、集音された音声信号は、分岐コネクタ3を介して、収録機器150に送信される。以下の説明では、話者1bの音声信号を、「第2音声信号」と表記する。
端末装置2bは、第2音声信号に、話者1bの属性情報を付与する。たとえば、話者1bは、自身の属性情報を、端末装置2bに登録しておく。話者1bの属性情報に関する説明は、話者1aの属性情報に関する説明と同様である。
収録機器150は、第1音声信号および第2音声信号を収録する装置である。たとえば、収録機器150は、第1音声信号を受信すると、第1音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第1音声信号の音声ファイルを、音声評価装置200に送信する。第1音声信号の音声ファイルには、話者1aの属性情報が含まれる。以下の説明では、適宜、第1音声信号の音声ファイルを「第1音声ファイル」と表記する。
収録機器150は、第2音声信号を受信すると、第2音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第2音声信号の音声ファイルを、音声評価装置200に送信する。第2音声信号の音声ファイルには、話者1bの属性情報が含まれる。以下の説明では、適宜、第2音声信号の音声ファイルを「第2音声ファイル」と表記する。
音声評価装置200は、第1音声ファイルの第1音声信号を基にして、話者1aの音声の印象を評価する。音声評価装置200は、第2音声ファイルの第2音声信号を基にして、話者1bの音声の印象を評価する。そして、音声評価装置200は、話者1aの音声の印象の評価結果および話者2aの音声の印象の評価結果を基にして、話者1a、1b間の会話全体のスコアを算出する。
図7は、本実施例2に係る音声評価装置の構成を示す機能ブロック図である。図7に示すように、この音声評価装置200は、受信部201、記憶装置202、音声評価部203、評価結果格納部204を有する。
受信部201は、収録機器150から、第1音声ファイルおよび第2音声ファイルを受信する処理部である。受信部201は、受信した第1音声ファイルおよび第2音声ファイルを、記憶部202の音声ファイルテーブル202aに登録する。受信部201は、通信装置に対応する。
記憶装置202は、音声ファイルテーブル202aと、評価結果テーブル202bを有する。記憶装置202は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
音声ファイルテーブル202aは、第1音声ファイルおよび第2音声ファイルを格納するテーブルである。
評価結果テーブル202bは、評価結果を格納するテーブルである。たとえば、評価結果テーブル202bは、話者1aの評価結果、話者1bの評価結果、話者1a、1b間の会話全体のスコアを格納する。
音声評価部203は、第1音声ファイルおよび第2音声ファイルを基にして、話者1a、1bの音声の印象を評価する。そして、音声評価部203は、話者1a、1の音声の印象の評価結果を基にして、話者1a、1b間の会話全体のスコアを算出する。音声評価部203は、話者1a、1bの音声の印象の評価結果および会話全体のスコアを、評価結果格納部204に出力する。
評価結果格納部204は、話者1a、1の音声の印象の評価結果および会話全体のスコアを、評価結果テーブル202bに格納する処理部である。
ここで、図7に示した音声評価部203、評価結果格納部204は、所定の制御部(図示略)に対応する。たとえば、制御部は、CPUやMPUなどによって実現できる。また、制御部は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
続いて、図7に示した音声評価部203の構成について説明する。図8は、本実施例2に係る音声評価部の構成を示す機能ブロック図である。図8に示すように、この音声評価部203は、ピッチ検出部210、分布算出部211、広がり算出部212、記憶部213、推定部114、評価部115を有する。
ピッチ検出部210は、音声ファイルの音声信号を周波数解析することで、所定区間毎のピッチ周波数を検出する処理部である。たとえば、ピッチ検出部210は、第1音声ファイルの第1音声信号を周波数解析することで、第1音声信号の第1ピッチ周波数を検出する。また、ピッチ検出部210は、第2音声ファイルの第2音声信号を周波数解析することで、第2音声信号の第2ピッチ周波数を検出する。ピッチ検出部210が、音声信号からピッチ周波数を検出する処理は、図2に示したピッチ検出部110が、音声信号からピッチ周波数を検出する処理と同様である。
ピッチ検出部210は、話者1aの属性情報と、複数の第1ピッチ周波数とを分布算出部211に出力する。また、ピッチ検出部210は、話者1bの属性情報と、複数の第2ピッチ周波数とを分布算出部211に出力する。
分布算出部211は、所定区間内の複数のピッチ周波数を基にして、ヒストグラムを算出する処理部である。たとえば、分布算出部211は、所定区間内の複数の第1ピッチ周波数を基にして、第1ヒストグラムを算出する。分布算出部211は、所定区間内の複数の第2ピッチ周波数を基にして、第2ヒストグラムを算出する。分布算出部211が、ヒストグラムを算出する処理は、図2に示した分布算出部111が、ヒストグラムを算出する処理と同様である。
分布算出部211は、複数の第1ピッチ周波数を基にして算出した、第1ヒストグラムの情報を、広がり算出部212に出力する。第1ヒストグラムの情報は、第1ヒストグラムの中心部の情報、第1ヒストグラムの裾部の情報を含む。
分布算出部211は、複数の第2ピッチ周波数を基にして算出した、第2ヒストグラムの情報を、広がり算出部212に出力する。第2ヒストグラムの情報は、第2ヒストグラムの中心部の情報、第2ヒストグラムの裾部の情報を含む。
広がり算出部212は、ヒストグラムを補正した上で、ヒストグラムの広がりを算出する処理部である。たとえば、広がり算出部212は、第1ヒストグラムを補正した上で、第1ヒストグラムの広がりを算出する。広がり算出部212は、第2ヒストグラムを補正した上で、第2ヒストグラムの広がりを算出する。広がり算出部212が、ヒストグラムの広がりを算出する処理は、図2に示した広がり算出部112が、ヒストグラムの広がりを算出する処理と同様である。たとえば、補正したヒストグラムの広がりは、補正したピッチ周波数(第1ピッチ周波数、第2ピッチ周波数)に基づく標準偏差に対応する。
広がり算出部212は、属性情報と対応づけて、補正したヒストグラムの広がりに対応する標準偏差の情報を、推定部214および評価部215に出力する。たとえば、広がり算出部212は、話者1aの属性情報と対応づけて、補正した第1ヒストグラムの広がりに対応する標準偏差の情報を、推定部214および評価部215に出力する。広がり算出部212は、話者1bの属性情報と対応づけて、補正した第2ヒストグラムの広がりに対応する標準偏差の情報を、推定部214および評価部215に出力する。
記憶部213は、平常時分布テーブル213aを有する。記憶部213は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
平常時分布テーブル213aは、属性情報に対応する話者の平常時における、ヒストグラムの広がりの情報を保持するテーブルである。たとえば、平常時分布テーブル213aは、属性情報と、標準偏差とを対応づける。平常時分布テーブル213aの標準偏差は、後述する推定部214によって推定される。
図9は、本実施例2に係る平常時分布テーブルのデータ構造の一例を示す図である。図9に示すように、この平常時分布テーブル213aは、属性情報と、標準偏差とを対応づける。属性情報は、性別情報と、声の高さ情報とを対応づける。
推定部214は、属性情報毎に、話者の平常時における標準偏差を推定する処理部である。推定部214は、属性情報と、平常時における標準偏差とを対応づけて、平常時分布テーブル213aに格納する。推定部214は、音声ファイル(第1音声ファイルおよび第2音声ファイル)に添付されている属性情報を取得する。
推定部214は、属性情報を取得し、属性情報に対応する標準偏差が平常時分布テーブル213aに格納されていない場合には、「初期動作」を行う。一方、推定部214は、属性情報に対応する標準偏差が、平常時分布テーブル213aに格納されている場合には、「更新動作」を行う。推定部214による、初期動作、更新動作に関する説明は、属性情報毎に、実行される点を除いて、推定部114の初期動作、更新動作に関する説明と同様である。
以下の説明では、話者1aの属性情報に対応する、平常時分布テーブル213aから取得した、標準偏差を「第1平常時標準偏差」と表記する。話者1aの属性情報に対応する、広がり算出部212から取得した標準偏差を「第1評価標準偏差」と表記する。
話者1bの属性情報に対応する、平常時分布テーブル213aから取得した、標準偏差を「第2平常時標準偏差」と表記する。話者1bの属性情報に対応する、広がり算出部212から取得した標準偏差を「第2評価標準偏差」と表記する。
なお、推定部214は、評価部215から、話者1aの属性情報を取得し、第1平常時標準偏差の要求を受け付けた場合に、第1平常時標準偏差を平常時分布テーブル213aから取得し、第1平常時標準偏差を、評価部215に出力する。
推定部214は、評価部215から、話者1bの属性情報を取得し、第2平常時標準偏差の要求を受け付けた場合に、第2平常時標準偏差を平常時分布テーブル213aから取得し、第2平常時標準偏差を、評価部215に出力する。
評価部215は、各標準偏差を基にして、話者1a,1bの音声の印象を評価する処理部である。また、評価部215は、話者1a,1bの音声の印象の評価結果を基にして、話者1a、1b間の会話全体のスコアを算出する。
具体的に、評価部215は、第1平常時標準偏差と、第1評価標準偏差とを基にして、話者1aの音声の印象を評価する。また、評価部215は、第2平常時標準偏差と、第2評価標準偏差とを基にして、話者1bの音声の印象を評価する。評価部215が、各標準偏差を基にして、話者1a,1bの音声の印象を評価する処理は、評価部115が、音声を評価する処理と同様である。
評価部215は、上記処理を繰り返し実行することで、所定区間毎に、話者1aの評価結果および話者1bの評価結果を特定する。
続いて、評価部215は、話者1aの評価結果および話者1bの評価結果を特定した後に、式(2)に基づいて、会話全体のスコアを算出する。
会話全体のスコア=(話者1aの印象が良いと評価された区間数+話者1bの印象が良いと評価された区間数)/(全体の区間数×2)×100・・・(2)
評価部215は、話者1a、1bの音声の印象の評価結果および会話全体のスコアを、評価結果格納部204に出力する。
次に、本実施例2に係る音声評価装置200の効果について説明する。音声評価装置200は、話者の属性情報に合わせて、平常時標準偏差を学習しておき、評価時において、話者の属性情報に応じた平常時標準偏差を用いて、話者の音声を評価する。このため、話者の属性情報に基づく、音声の評価を行うことができ、評価の正確性を向上させることができる。
また、音声評価装置200は、各話者1a,1bの音声の評価結果に基づいて、会話全体のスコアを算出するため、管理者などが係るスコアを参照することで、会話全体の善し悪しを把握することができる。たとえば、式(2)により算出される会話全体のスコアは、値が大きいほど、会話内容が良かったと言える。
図10は、本実施例3に係る音声評価システムの構成を示す図である。図10に示すように、この音声評価システムは、マイク30A,30B,30C、収録機器300、クラウド170を有する。マイク30A〜30Cは、収録機器300に接続される。収録機器300は、インターネット網15bを介して、クラウド170に接続される。たとえば、クラウド170には、音声評価装置400が含まれる。図示を省略するが、音声評価装置400は、複数のサーバによって構成されていてもよい。
話者1Aによる音声は、マイク30aにより集音され、集音された音声信号は、収録機器300に出力される。話者1Bによる音声は、マイク30bにより集音され、集音された音声信号は、収録機器300に出力される。話者1Cによる音声は、マイク30cにより集音され、集音された音声信号は、収録機器300に出力される。
以下の説明では、話者1Aの音声信号を、「第1音声信号」と表記する。話者1Bの音声信号を、「第2音声信号」と表記する。話者1Cの音声信号を、「第3音声信号」と表記する。
なお、第1音声信号には、話者1Aの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第2音声信号には、話者1Bの話者情報が付与される。第3音声信号には、話者1Cの話者情報が付与される。
収録機器300は、第1音声信号、第2音声信号、第3音声信号を収録する装置である。また、収録装置300は、各音声信号のピッチ周波数を検出する処理を実行する。収録装置300は、話者情報と、所定区間毎のピッチ周波数とを対応づけて、音声評価装置400に送信する。
音声評価装置400は、収録機器300から受信する各話者情報のピッチ周波数を基にして、各話者の音声を評価する処理部である。また、音声評価装置400は、各話者の音声の評価結果を基にして、話者1A〜1Cの会話の印象を評価する。
図11は、本実施例3に係る収録機器の構成を示す機能ブロック図である。図11に示すように、この収録機器300は、AD変換部310a〜310bと、ピッチ検出部320と、ファイル化部330と、送信部340とを有する。
AD変換部310aは、マイク30aから第1音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部310aは、第1音声信号(アナログ信号)を、第1音声信号(デジタル信号)に変換する。AD変換部310aは、第1音声信号(デジタル信号)を、ピッチ検出部320に出力する。以下の説明では、AD変換部310aから出力される第1音声信号(デジタル信号)を単に第1音声信号と表記する。
AD変換部310bは、マイク30bから第2音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部310bは、第2音声信号(アナログ信号)を、第2音声信号(デジタル信号)に変換する。AD変換部310bは、第2音声信号(デジタル信号)を、ピッチ検出部320に出力する。以下の説明では、AD変換部310bから出力される第2音声信号(デジタル信号)を単に第2音声信号と表記する。
AD変換部310cは、マイク30cから第3音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部310cは、第3音声信号(アナログ信号)を、第3音声信号(デジタル信号)に変換する。AD変換部310cは、第3音声信号(デジタル信号)を、ピッチ検出部320に出力する。以下の説明では、AD変換部310cから出力される第3音声信号(デジタル信号)を単に第3音声信号と表記する。
ピッチ検出部320は、音声信号を周波数解析することで、所定区間毎のピッチ周波数を算出する処理部である。たとえば、ピッチ検出部320は、第1音声信号を周波数解析することで、第1音声信号の第1ピッチ周波数を検出する。ピッチ検出部320は、第2音声信号を周波数解析することで、第2音声信号の第2ピッチ周波数を検出する。ピッチ検出部320は、第3音声信号を周波数解析することで、第3音声信号の第3ピッチ周波数を検出する。
ピッチ検出部320は、話者1Aの話者情報と、所定区間毎の第1ピッチ周波数とを対応づけて、ファイル化部330に出力する。ピッチ検出部320は、話者1Bの話者情報と、所定区間毎の第2ピッチ周波数とを対応づけて、ファイル化部330に出力する。ピッチ検出部320は、話者1Cの話者情報と、所定区間毎の第3ピッチ周波数とを対応づけて、ファイル化部330に出力する。
ファイル化部330は、ピッチ検出部320から受け付ける情報をファイル化することで、「音声ファイル情報」を生成する処理部である。この音声ファイル情報には、話者情報と、所定区間毎のピッチ周波数とを対応づけた情報を含む。具体的に、音声ファイル情報は、話者1Aの話者情報と、所定区間毎の第1ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者1Bの話者情報と、所定区間毎の第2ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者1Cの話者情報と、所定区間毎の第3ピッチ周波数とを対応づけた情報を含む。ファイル化部330は、音声ファイル情報を、送信部340に出力する。
送信部340は、ファイル化部330から音声ファイル情報を取得し、取得した音声ファイル情報を、音声評価装置400に送信する。
図12は、本実施例3に係る音声評価装置の構成を示す機能ブロック図である。図12に示すように、この音声評価装置400は、受信部401、記憶装置402、音声評価部403、評価結果格納部404を有する。
受信部401は、収録機器300から、音声ファイル情報を受信する処理部である。受信部401は、受信した音声ファイル情報を、記憶部402の音声ファイルテーブル402aに登録する。受信部401は、通信装置に対応する。
記憶装置402は、音声ファイルテーブル402aと、評価結果テーブル402bを有する。記憶装置402は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
音声ファイルテーブル402aは、音声ファイル情報を格納するテーブルである。音声ファイル情報は、話者1Aの話者情報と、所定区間毎の第1ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者1Bの話者情報と、所定区間毎の第2ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者1Cの話者情報と、所定区間毎の第3ピッチ周波数とを対応づけた情報を含む。
評価結果テーブル402bは、評価結果を格納するテーブルである。たとえば、評価結果テーブル402bは、話者1A〜1Cの評価結果、話者1A〜1C間の会話全体の評価結果を格納する。
音声評価部403は、音声ファイル情報を基にして、話者1A〜1Cの音声の印象を評価する。そして、音声評価部403は、話者1A〜1Cの音声の印象の評価結果を基にして、話者1A〜1C間の会話全体を評価する。音声評価部403は、話者1A〜1Cの音声の印象の評価結果および会話全体の評価結果を、評価結果格納部404に出力する。
評価結果格納部404は、話者1A〜1Cの音声の印象の評価結果および会話全体の評価結果を、評価結果テーブル402bに格納する処理部である。
ここで、図12に示した音声評価部403、評価結果格納部404は、所定の制御部(図示略)に対応する。たとえば、制御部は、CPUやMPUなどによって実現できる。また、制御部は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
続いて、図13に示した音声評価部403の構成について説明する。図13は、本実施例3に係る音声評価部の構成を示す機能ブロック図である。図13に示すように、この音声評価部403は、ピッチ取得部410、分布算出部411、広がり算出部412、記憶部413、推定部414、評価部415を有する。
ピッチ取得部410は、音声ファイルテーブル402aから音声ファイル情報を取得する処理部である。ピッチ取得部410は、音声ファイル情報を、分布算出部411に出力する。
分布算出部411は、所定区間内の複数のピッチ周波数を基にして、ヒストグラムを算出する処理部である。たとえば、分布算出部411は、所定区間内の複数の第1ピッチ周波数を基にして、第1ヒストグラムを算出する。分布算出部411は、所定区間内の複数の第2ピッチ周波数を基にして、第2ヒストグラムを算出する。分布算出部411は、所定区間内の複数の第3ピッチ周波数を基にして、第3ヒストグラムを算出する。分布算出部411が、ヒストグラムを算出する処理は、図2に示した分布算出部111が、ヒストグラムを算出する処理と同様である。
分布算出部411は、複数の第1ピッチ周波数を基にして算出した、第1ヒストグラムの情報を、広がり算出部412に出力する。第1ヒストグラムの情報は、第1ヒストグラムの中心部の情報、第1ヒストグラムの裾部の情報を含む。
分布算出部411は、複数の第2ピッチ周波数を基にして算出した、第2ヒストグラムの情報を、広がり算出部412に出力する。第2ヒストグラムの情報は、第2ヒストグラムの中心部の情報、第2ヒストグラムの裾部の情報を含む。
分布算出部411は、複数の第3ピッチ周波数を基にして算出した、第3ヒストグラムの情報を、広がり算出部412に出力する。第2ヒストグラムの情報は、第3ヒストグラムの中心部の情報、第3ヒストグラムの裾部の情報を含む。
広がり算出部412は、ヒストグラムを補正した上で、ヒストグラムの広がりを算出する処理部である。たとえば、広がり算出部412は、第1ヒストグラムを補正した上で、第1ヒストグラムの広がりを算出する。広がり算出部412は、第2ヒストグラムを補正した上で、第2ヒストグラムの広がりを算出する。広がり算出部412は、第3ヒストグラムを補正した上で、第3ヒストグラムの広がりを算出する。広がり算出部412が、ヒストグラムの広がりを算出する処理は、図2に示した広がり算出部112が、ヒストグラムの広がりを算出する処理と同様である。たとえば、補正したヒストグラムの広がりは、補正したピッチ周波数(第1ピッチ周波数、第2ピッチ周波数、第3ピッチ周波数)に基づく標準偏差に対応する。
広がり算出部412は、話者情報と対応づけて、補正したヒストグラムの広がりに対応する標準偏差の情報を、推定部414および評価部415に出力する。たとえば、広がり算出部412は、話者1Aの話者情報と対応づけて、補正した第1ヒストグラムの広がりに対応する標準偏差の情報を、推定部414および評価部415に出力する。広がり算出部412は、話者1Bの話者情報と対応づけて、補正した第2ヒストグラムの広がりに対応する標準偏差の情報を、推定部414および評価部415に出力する。広がり算出部412は、話者1Cの話者情報と対応づけて、補正した第2ヒストグラムの広がりに対応する標準偏差の情報を、推定部414および評価部415に出力する。
記憶部413は、平常時分布テーブル413aを有する。記憶部413は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
平常時分布テーブル413aは、話者情報に対応する話者の平常時における、ヒストグラムの広がりの情報を保持するテーブルである。たとえば、平常時分布テーブル413aは、話者情報と、標準偏差とを対応づける。平常時分布テーブル413aの標準偏差は、後述する推定部414によって推定される。
推定部414は、話者情報毎に、話者の平常時における標準偏差を推定する処理部である。推定部414は、話者情報と、平常時における標準偏差とを対応づけて、平常時分布テーブル413aに格納する。推定部414は、音声ファイル情報に添付されている話者情報を取得する。
推定部414は、話者情報を取得し、話者情報に対応する標準偏差が平常時分布テーブル413aに格納されていない場合には、「初期動作」を行う。一方、推定部414は、話者情報に対応する標準偏差が、平常時分布テーブル413aに格納されている場合には、「更新動作」を行う。推定部414による、初期動作、更新動作に関する説明は、図2に示した推定部114の初期動作、更新動作に関する説明と同様である。
以下の説明では、話者1Aの話者情報に対応する、平常時分布テーブル413aから取得した、標準偏差を「第1平常時標準偏差」と表記する。話者1Aの話者情報に対応する、広がり算出部412から取得した標準偏差を「第1評価標準偏差」と表記する。
話者1Bの話者情報に対応する、平常時分布テーブル413aから取得した、標準偏差を「第2平常時標準偏差」と表記する。話者1Bの話者情報に対応する、広がり算出部412から取得した標準偏差を「第2評価標準偏差」と表記する。
話者1Cの話者情報に対応する、平常時分布テーブル413aから取得した、標準偏差を「第3平常時標準偏差」と表記する。話者1Cの話者情報に対応する、広がり算出部412から取得した標準偏差を「第3評価標準偏差」と表記する。
なお、推定部414は、評価部415から、話者1Aの話者情報を取得し、第1平常時標準偏差の要求を受け付けた場合に、第1平常時標準偏差を平常時分布テーブル413aから取得し、第1平常時標準偏差を、評価部415に出力する。
推定部414は、評価部415から、話者1Bの話者情報を取得し、第2平常時標準偏差の要求を受け付けた場合に、第2平常時標準偏差を平常時分布テーブル413aから取得し、第2平常時標準偏差を、評価部415に出力する。
推定部414は、評価部415から、話者1Cの話者情報を取得し、第3平常時標準偏差の要求を受け付けた場合に、第3平常時標準偏差を平常時分布テーブル413aから取得し、第3平常時標準偏差を、評価部415に出力する。
評価部415は、各標準偏差を基にして、話者1A〜1Cの音声の印象を評価する処理部である。また、評価部415は、話者1A〜1Cの音声の印象の評価結果を基にして、話者1A〜1Cの会話全体の評価を行う。
具体的に、評価部415は、第1平常時標準偏差と、第1評価標準偏差とを基にして、話者1Aの音声の印象を評価する。評価部415は、第2平常時標準偏差と、第2評価標準偏差とを基にして、話者1Bの音声の印象を評価する。評価部415は、第3平常時標準偏差と、第3評価標準偏差とを基にして、話者1Cの音声の印象を評価する。評価部415が、各標準偏差を基にして、話者1A〜1Cの音声の印象を評価する処理は、評価部115が、音声を評価する処理と同様である。
評価部415は、上記処理を繰り返し実行することで、所定区間毎に、話者1Aの評価結果、話者1Bの評価結果、話者1Cの評価結果を特定する。
続いて、評価部415は、話者1A〜1Cの評価結果を特定した後に、会話全体の評価を行う。たとえば、評価部415は、話者毎に、所定フレーム間の各評価結果「良い、普通、悪い」のうち、平均の評価結果を特定する。たとえば、評価部415は、所定フレーム間の各評価結果のうち、もっとも多い評価結果を、平均の評価結果とする。
評価部415は、各話者1A〜1Cの平均の評価結果が非常に近い場合には、良い会話であると判定する。評価部415は、各話者1A〜1Cの平均の評価結果が異なる場合には、悪い会話であると判定する。
たとえば、評価部415は、各話者1A〜1Cの平均の評価結果を比較し、2以上の平均の評価結果が一致した場合には、良い会話であると判定する。一方、評価部415は、各話者1A〜1Cの平均の評価結果を比較し、2以上の平均の評価結果が一致しない場合には、悪い会話であると判定する。
評価部415は、話者1A〜1Cの音声の印象の評価結果および会話全体の評価結果を、評価結果格納部404に出力する。
次に、本実施例3に係る音声評価装置400の効果について説明する。音声評価装置400は、話者の話者情報に合わせて、平常時標準偏差を学習しておき、評価時において、話者の話者情報に応じた平常時標準偏差を用いて、話者の音声を評価する。このため、話者情報に基づく、音声の評価を行うことができ、評価の正確性を向上させることができる。
また、音声評価装置400は、各話者1A〜1Cの音声の評価結果に基づいて、会話全体を評価するため、管理者などが会話全体の善し悪しを把握することができる。
また、本実施例3に係る音声評価装置400は、会話全体を評価する場合に、式(3)に基づいて、会話全体のスコアを算出しても良い。
会話全体のスコア=(話者1Aの印象が良いと評価された区間数+話者1Bの印象が良いと評価された区間数+話者1Cの印象が良いと評価された区間数)/(全体の区間数×3)×100・・・(3)
次に、上記実施例に示した音声評価装置100,200,400と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図14は、音声評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図14に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータの入力を受け付ける入力装置502と、ディスプレイ503とを有する。また、コンピュータ500は、記憶媒体からプログラム等を読み取る読み取り装置504と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置505とを有する。また、コンピュータ500は、各種情報を一時記憶するRAM506と、ハードディスク装置507とを有する。そして、各装置501〜507は、バス508に接続される。
ハードディスク装置507は、ピッチ検出プログラム507a、分布算出プログラム507b、広がり算出プログラム507c、推定プログラム507d、評価プログラム507eを有する。CPU501は、ピッチ検出プログラム507a、分布算出プログラム507b、広がり算出プログラム507c、推定プログラム507d、評価プログラム507dを読み出してRAM506に展開する。
ピッチ検出プログラム507aは、ピッチ検出プロセス506aとして機能する。分布算出プログラム507bは、分布算出プロセス506bとして機能する。広がり算出プログラム507cは、広がり算出プロセス506cとして機能する。推定プログラム507dは、推定プロセス506dとして機能する。評価プログラム507eは、評価プロセス506eとして機能する。
ピッチ検出プロセス506aの処理は、ピッチ検出部110,210,320の処理に対応する。分布算出プロセス506bは、分布算出部111、211,411の処理に対応する。広がり算出プロセス506cの処理は、広がり算出部112,212,412の処理に対応する。推定プロセス506dは、推定部114,214,414の処理に対応する。
なお、各プログラム507a〜507eについては、必ずしも最初からハードディスク装置507に記憶させておかなくても良い。例えば、コンピュータ500に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ500が各プログラム507a〜507eを読み出して実行するようにしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)音声信号を解析してピッチ周波数を検出し、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
処理をコンピュータに実行させることを特徴とする音声評価プログラム。
(付記2)前記分布の中心部に対応するピッチ周波数に第1の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第1の重みよりも小さい第2の重みを乗算することで、前記分布を補正する処理を更に実行させ、前記評価する処理は、補正した分布の広がりを基にして、前記発話区間内の音声の印象を評価することを特徴とする付記1に記載の音声評価プログラム。
(付記3)前記ピッチ周波数を検出する処理は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする付記1または2に記載の音声評価プログラム。
(付記4)前記評価する処理は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記統計量を基にして、音声の印象を評価することを特徴とする付記1、2または3に記載の音声評価プログラム。
(付記5)予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する処理を更に実行させ、前記評価する処理は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする付記2に記載の音声評価プログラム。
(付記6)前記基準分布と、話者情報とを対応づけて記憶装置に記憶する処理を更に実行させ、前記評価する処理は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする付記5に記載の音声評価プログラム。
(付記7)前記基準分布を推定する処理は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする付記6に記載の音声評価プログラム。
(付記8)前記分布を補正する処理は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする付記2に記載の音声評価プログラム。
(付記9)前記評価する処理は、異なる話者情報毎に音声を評価し、複数話者による会話全体を評価することを特徴とする付記1に記載の音声評価プログラム。
(付記10)前記評価する処理は、各時刻における音声の印象をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする付記1に記載の音声評価プログラム。
(付記11)前記評価する処理は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする付記2、3または4に記載の音声評価プログラム。
(付記12)コンピュータが実行する音声評価方法であって、
音声信号を解析してピッチ周波数を検出し、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
処理をコンピュータに実行させることを特徴とする音声評価方法。
(付記13)前記分布の中心部に対応するピッチ周波数に第1の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第1の重みよりも小さい第2の重みを乗算することで、前記分布を補正する処理を更に実行させ、前記評価する処理は、補正した分布の広がりを基にして、前記発話区間内の音声の印象を評価することを特徴とする付記12に記載の音声評価方法。
(付記14)前記ピッチ周波数を検出する処理は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする付記12または13に記載の音声評価方法。
(付記15)前記評価する処理は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記統計量を基にして、音声の印象を評価することを特徴とする付記12、13または14に記載の音声評価方法。
(付記16)予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する処理を更に実行させ、前記評価する処理は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする付記13に記載の音声評価方法。
(付記17)前記基準分布と、話者情報とを対応づけて記憶装置に記憶する処理を更に実行させ、前記評価する処理は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする付記16に記載の音声評価方法。
(付記18)前記基準分布を推定する処理は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする付記17に記載の音声評価方法。
(付記19)前記分布を補正する処理は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする付記13に記載の音声評価方法。
(付記20)前記評価する処理は、異なる話者情報毎に音声を評価し、複数話者による会話全体を評価することを特徴とする付記12に記載の音声評価方法。
(付記21)前記評価する処理は、各時刻における音声の印象をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする付記12に記載の音声評価方法。
(付記22)前記評価する処理は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする付記13、14または15に記載の音声評価方法。
(付記23)音声信号を解析してピッチ周波数を検出するピッチ検出部と、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する評価部と、
を有することを特徴とする音声評価装置。
(付記24)前記分布の中心部に対応するピッチ周波数に第1の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第1の重みよりも小さい第2の重みを乗算することで、前記分布を補正する広がり算出部を更に有し、前記評価部は、補正した分布の広がりを基にして、前記発話区間内の音声の印象を評価することを特徴とする付記23に記載の音声評価装置。
(付記25)前記ピッチ検出部は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする付記23または24に記載の音声評価装置。
(付記26)前記広がり算出部は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記評価部は、前記統計量を基にして、音声の印象を評価することを特徴とする付記24または25に記載の音声評価装置。
(付記27)予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する推定部を更に有し、前記評価部は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする付記24に記載の音声評価装置。
(付記28)前記推定部は、前記基準分布と、話者情報とを対応づけて記憶装置に記憶し、前記評価部は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする付記27に記載の音声評価装置。
(付記29)前記推定部は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする付記28に記載の音声評価装置。
(付記30)前記広がり算出部は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする付記24に記載の音声評価装置。
(付記31)前記評価部は、異なる話者情報毎に音声を評価し、複数話者の会話全体を評価することを特徴とする付記23に記載の音声評価装置。
(付記32)前記評価部は、異なる発話区間の音声をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする付記23に記載の音声評価装置。
(付記33)前記評価部は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする付記24、25または26に記載の音声評価装置。
100,200,400 音声評価装置
150,300 収録機器

Claims (13)

  1. 音声信号を解析してピッチ周波数を検出し、
    検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
    前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
    処理をコンピュータに実行させることを特徴とする音声評価プログラム。
  2. 前記分布の中心部に対応するピッチ周波数に第1の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第1の重みよりも小さい第2の重みを乗算することで、前記分布を補正する処理を更に実行させ、前記評価する処理は、補正した分布の広がりを基にして、発話区間内の音声の印象を評価することを特徴とする請求項1に記載の音声評価プログラム。
  3. 前記ピッチ周波数を検出する処理は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする請求項1または2に記載の音声評価プログラム。
  4. 前記評価する処理は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記統計量を基にして、音声の印象を評価することを特徴とする請求項1、2または3に記載の音声評価プログラム。
  5. 予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する処理を更に実行させ、前記評価する処理は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする請求項2に記載の音声評価プログラム。
  6. 前記基準分布と、話者情報とを対応づけて記憶装置に記憶する処理を更に実行させ、前記評価する処理は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする請求項5に記載の音声評価プログラム。
  7. 前記基準分布を推定する処理は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする請求項6に記載の音声評価プログラム。
  8. 前記分布を補正する処理は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする請求項2に記載の音声評価プログラム。
  9. 前記評価する処理は、異なる話者情報毎に音声を評価し、複数話者による会話全体を評価することを特徴とする請求項1に記載の音声評価プログラム。
  10. 前記評価する処理は、各時刻における音声の印象をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする請求項1に記載の音声評価プログラム。
  11. 前記評価する処理は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする請求項2、3または4に記載の音声評価プログラム。
  12. コンピュータが実行する音声評価方法であって、
    音声信号を解析してピッチ周波数を検出し、
    検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
    前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
    処理をコンピュータに実行させることを特徴とする音声評価方法。
  13. 音声信号を解析してピッチ周波数を検出するピッチ検出部と、
    検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する評価部と、
    を有することを特徴とする音声評価装置。
JP2017123588A 2017-06-23 2017-06-23 音声評価プログラム、音声評価方法および音声評価装置 Active JP6891662B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2017123588A JP6891662B2 (ja) 2017-06-23 2017-06-23 音声評価プログラム、音声評価方法および音声評価装置
EP18821009.0A EP3644316A4 (en) 2017-06-23 2018-03-30 VOICE EVALUATION PROGRAM, VOICE EVALUATION METHOD, AND VOICE EVALUATION DEVICE
CN201880003613.7A CN109791774B (zh) 2017-06-23 2018-03-30 记录介质、声音评价方法以及声音评价装置
PCT/JP2018/013867 WO2018235380A1 (ja) 2017-06-23 2018-03-30 音声評価プログラム、音声評価方法および音声評価装置
US16/354,260 US11232810B2 (en) 2017-06-23 2019-03-15 Voice evaluation method, voice evaluation apparatus, and recording medium for evaluating an impression correlated to pitch

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017123588A JP6891662B2 (ja) 2017-06-23 2017-06-23 音声評価プログラム、音声評価方法および音声評価装置

Publications (2)

Publication Number Publication Date
JP2019008130A JP2019008130A (ja) 2019-01-17
JP6891662B2 true JP6891662B2 (ja) 2021-06-18

Family

ID=64736984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017123588A Active JP6891662B2 (ja) 2017-06-23 2017-06-23 音声評価プログラム、音声評価方法および音声評価装置

Country Status (5)

Country Link
US (1) US11232810B2 (ja)
EP (1) EP3644316A4 (ja)
JP (1) JP6891662B2 (ja)
CN (1) CN109791774B (ja)
WO (1) WO2018235380A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3438980B1 (en) * 2016-03-30 2020-04-08 Fujitsu Limited Utterance impression determination program, method for determining utterance impression, and utterance impression determination device
US20200111386A1 (en) * 2018-10-03 2020-04-09 Edupresent Llc Presentation Assessment And Valuation System
EP3931826A4 (en) * 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
CN113658581B (zh) * 2021-08-18 2024-03-01 北京百度网讯科技有限公司 声学模型的训练、语音处理方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP3447221B2 (ja) * 1998-06-17 2003-09-16 ヤマハ株式会社 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP4587854B2 (ja) * 2005-03-23 2010-11-24 東京電力株式会社 感情解析装置、感情解析プログラム、プログラム格納媒体
FR2926786B1 (fr) * 2008-01-30 2010-02-19 Eurocopter France Procede d'optimisation d'un rotor anti-couple carene a gene acoustique minimale pour un giravion, notamment un helicoptere, et rotor anti-couple carene ainsi obtenu
JP5293018B2 (ja) * 2008-09-09 2013-09-18 ソニー株式会社 音楽情報処理装置、音楽情報処理方法およびコンピュータプログラム
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
JP2015087557A (ja) 2013-10-31 2015-05-07 三菱電機株式会社 発話様式検出装置および発話様式検出方法
JP6759560B2 (ja) * 2015-11-10 2020-09-23 ヤマハ株式会社 調律推定装置及び調律推定方法

Also Published As

Publication number Publication date
US11232810B2 (en) 2022-01-25
CN109791774A (zh) 2019-05-21
CN109791774B (zh) 2023-03-10
EP3644316A4 (en) 2020-06-24
WO2018235380A1 (ja) 2018-12-27
US20190214039A1 (en) 2019-07-11
JP2019008130A (ja) 2019-01-17
EP3644316A1 (en) 2020-04-29

Similar Documents

Publication Publication Date Title
JP6891662B2 (ja) 音声評価プログラム、音声評価方法および音声評価装置
US11986283B2 (en) Methods and apparatus for cough detection in background noise environments
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
JP5728888B2 (ja) 信号処理装置および方法、並びにプログラム
US9959886B2 (en) Spectral comb voice activity detection
CN106558308B (zh) 一种互联网音频数据质量自动打分系统及方法
Ba et al. BaNa: A hybrid approach for noise resilient pitch detection
WO2018014673A1 (zh) 一种啸叫检测方法和装置
US20200251129A1 (en) Voice processing method and voice processing apparatus
CN112700399B (zh) 缺陷检测视觉化方法及其系统
JP7095414B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
Poorjam et al. A parametric approach for classification of distortions in pathological voices
JP7000757B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
US10636438B2 (en) Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium
JP6904198B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP6672478B2 (ja) 生体音解析方法、プログラム、記憶媒体及び生体音解析装置
JP6907859B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP7293826B2 (ja) 問題検出装置、問題検出方法および問題検出プログラム
CN111415681A (zh) 一种基于音频数据确定音符的方法及装置
CN113516965B (zh) 一种语音测试方法、计算机设备及可读存储介质
CN106372657B (zh) 一种基于图像识别的运动数据偏差修正的方法和装置
CN117727311A (zh) 音频处理方法及装置、电子设备及计算机可读存储介质
CN116978405A (zh) 无参考说话人日志系统评价方法、装置及设备
EP2148327A1 (en) A method and a device and a system for determining the location of distortion in an audio signal
JP2019020600A (ja) 評価プログラム、評価方法および評価装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210510

R150 Certificate of patent or registration of utility model

Ref document number: 6891662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150