JP2017156688A - Conversation evaluation device and program - Google Patents
Conversation evaluation device and program Download PDFInfo
- Publication number
- JP2017156688A JP2017156688A JP2016042271A JP2016042271A JP2017156688A JP 2017156688 A JP2017156688 A JP 2017156688A JP 2016042271 A JP2016042271 A JP 2016042271A JP 2016042271 A JP2016042271 A JP 2016042271A JP 2017156688 A JP2017156688 A JP 2017156688A
- Authority
- JP
- Japan
- Prior art keywords
- conversation
- user
- feature
- related information
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声による会話を評価する技術に関する。 The present invention relates to a technique for evaluating a voice conversation.
発話音声の解析により種々の事柄を評価する技術が従来から提案されている。例えば特許文献1には、発話音声の音程シーケンスにおける基音の間隔から話者の心理的または生理的な状態を推定する技術が開示されている。 Conventionally, techniques for evaluating various matters by analyzing uttered speech have been proposed. For example, Patent Document 1 discloses a technique for estimating a speaker's psychological or physiological state from the interval of fundamental sounds in a pitch sequence of speech sound.
しかし、特許文献1の技術では、特定の話者の状態が推定されるに過ぎず、例えば複数の話者間の音声による会話(例えば発話に対する応答の音声の印象)を客観的に評価することはできない。以上の事情を考慮して、本発明は、音声による会話を客観的に評価することを目的とする。 However, in the technique of Patent Document 1, only the state of a specific speaker is estimated, and for example, a speech conversation between a plurality of speakers (for example, an impression of a sound of a response to an utterance) is objectively evaluated. I can't. In view of the above circumstances, an object of the present invention is to objectively evaluate a voice conversation.
以上の課題を解決するために、本発明の第1態様に係る会話評価装置は、会話を構成する音声の特徴量を取得する特徴取得部と、会話について特徴量とは別種の関連情報を生成する情報生成部と、特徴量と関連情報とに応じて会話を評価する会話評価部とを具備する。以上の態様では、会話を構成する音声の特徴量に応じて当該会話を客観的に評価することが可能である。また、特徴量とは別種の関連情報が特徴量とともに会話の評価に加味されるから、特徴量のみを評価に反映させる構成と比較して会話を適切に評価することが可能である。 In order to solve the above problems, a conversation evaluation apparatus according to the first aspect of the present invention generates a feature acquisition unit that acquires a feature amount of speech constituting a conversation, and generates related information different from the feature amount for the conversation. And a conversation evaluation unit that evaluates conversation according to the feature amount and the related information. In the above aspect, it is possible to objectively evaluate the conversation according to the feature amount of the voice constituting the conversation. In addition, since related information different from the feature quantity is added to the conversation evaluation together with the feature quantity, it is possible to appropriately evaluate the conversation in comparison with a configuration in which only the feature quantity is reflected in the evaluation.
本発明の好適な態様において、特徴取得部は、関連情報に応じた条件で特徴量を取得する。以上の態様では、関連情報に応じた条件で特徴量が取得されるから、特徴量の取得に関連情報を利用しない構成と比較して特徴量を適切に取得できるという利点がある。 In a preferred aspect of the present invention, the feature acquisition unit acquires a feature amount under conditions according to the related information. In the above aspect, since the feature amount is acquired under conditions according to the related information, there is an advantage that the feature amount can be appropriately acquired as compared with a configuration in which the related information is not used for acquiring the feature amount.
本発明の第2態様に係る会話評価装置は、会話を構成する音声の特徴量を取得する特徴取得部と、会話について特徴量とは別種の関連情報を生成する情報生成部と、特徴量に応じて会話を評価する会話評価部とを具備し、特徴取得部は、関連情報に応じた条件で特徴量を取得する。以上の態様では、会話を構成する音声の特徴量に応じて当該会話を客観的に評価することが可能である。また、関連情報に応じた条件で特徴量が取得されるから、特徴量の取得に関連情報を利用しない構成と比較して特徴量を適切に取得できるという利点がある。 A conversation evaluation device according to a second aspect of the present invention includes a feature acquisition unit that acquires a feature amount of speech that constitutes a conversation, an information generation unit that generates related information different from the feature amount for conversation, and a feature amount And a conversation evaluation unit that evaluates the conversation in response, and the feature acquisition unit acquires the feature amount under conditions according to the related information. In the above aspect, it is possible to objectively evaluate the conversation according to the feature amount of the voice constituting the conversation. In addition, since the feature amount is acquired under conditions according to the related information, there is an advantage that the feature amount can be appropriately acquired as compared with a configuration in which the related information is not used for acquiring the feature amount.
前述の各態様に係る会話評価装置の好適例において、特徴取得部は、会話を構成する第1音声および第2音声の各々の音高を特徴量として取得し、会話評価部は、第1音声と第2音声との音高差に応じて会話を評価する。以上の態様では、第1音声と第2音声との音高差に応じて会話が評価されるから、発話音声の音高に対する応答音声の音高の関係という観点から応答音声の印象の良否を客観的に評価することが可能である。 In a preferred example of the conversation evaluation device according to each aspect described above, the feature acquisition unit acquires the pitch of each of the first voice and the second voice constituting the conversation as a feature amount, and the conversation evaluation unit receives the first voice. The conversation is evaluated according to the pitch difference between the voice and the second voice. In the above aspect, since the conversation is evaluated according to the pitch difference between the first voice and the second voice, the quality of the response voice is determined from the viewpoint of the relationship between the pitch of the response voice and the pitch of the utterance voice. It is possible to evaluate objectively.
前述の各態様において、関連情報は、例えば、会話の時間的な状況、会話の話者間における過去の会話の履歴、会話の話者間の関係、および、会話の各話者の属性の少なくともひとつを示す情報である。 In each of the above-described aspects, the related information includes, for example, at least a conversational time situation, a history of past conversations between conversational speakers, a relationship between conversational speakers, and an attribute of each conversational speaker. This is one piece of information.
<第1実施形態>
図1は、本発明の第1実施形態に係る会話評価装置100の構成図である。第1実施形態の会話評価装置100は、利用者U1と利用者U2との間の会話を評価する解析装置であり、例えば好印象な会話の訓練に好適に使用される。利用者U1が発音する音声V1(第1音声の例示)と利用者U2が発音する音声V2(第2音声の例示)とで会話が構成される。
<First Embodiment>
FIG. 1 is a configuration diagram of a
第1実施形態では、例えば問掛けおよび話掛けを含む発話の音声V1を利用者U1が発音し、利用者U1からの問掛けに対する回答や話掛けに対する受応えを含む応答の音声V2を利用者U2が発音する場合を想定する。利用者U2が発音する音声V2は、例えば間投詞を意味する音声である。例えば、「うん」「ええ」等の相鎚や、「え〜と」「あの〜」等の言淀み(応答の停滞)、「はい」「いいえ」等の回答(質問に対する肯定/否定)、話者の感動を表す「ああ」「おお」等の語句、あるいは、発話に対する問返し(聞き直し)を意味する「え?」「なに?」等の語句が、間投詞として例示され得る。 In the first embodiment, for example, the voice U1 of an utterance including a question and a talk is pronounced by the user U1, and a voice V2 of a response including an answer to the question from the user U1 and a response to the talk is received by the user. Assume that U2 is pronounced. The voice V2 generated by the user U2 is a voice meaning an interjection, for example. For example, “Yes”, “Yes”, etc., “E-to”, “Ano ~” etc. (stagnation of response), “Yes”, “No” answer (affirmative / negative) Phrases such as “Oh” and “O” representing the impression of the speaker, or phrases such as “E?” And “What?” That mean a question answer (re-listening) to the utterance may be exemplified as interjections.
図1に例示される通り、第1実施形態の会話評価装置100は、制御装置12と記憶装置14と表示装置16と入力装置18と収音装置22と収音装置24とを具備するコンピュータシステムで実現される。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置またはパーソナルコンピュータ等の情報処理装置で会話評価装置100は実現され得る。なお、相互に別体で構成された複数の装置により会話評価装置100を実現することも可能である。
As illustrated in FIG. 1, the
収音装置22および収音装置24は、周囲の音響を収音する音声入力機器である。収音装置22は、利用者U1が発音した音声V1を表す音声信号X1を生成し、収音装置24は、利用者U2が発音した音声V2を表す音声信号X2を生成する。なお、音声信号X1および音声信号X2の各々をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
The sound collecting
制御装置12は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成され、会話評価装置100の各要素を統括的に制御する。具体的には、制御装置12は、収音装置22が生成する音声信号X1と収音装置24が生成する音声信号X2とを解析することで、利用者U1と利用者U2との会話を評価する。第1実施形態の制御装置12は、利用者U1の発話に対する利用者U2の応答について印象の良否の指標(以下「評価値」という)Sを算定する。
The
表示装置16(例えば液晶表示パネル)は、制御装置12による制御のもとで各種の画像を表示する。例えば、利用者U1と利用者U2との会話の評価結果(評価値S)が表示装置16に表示される。入力装置18は、会話評価装置100に対する利用者U(例えば利用者U1や利用者U2)からの指示を受付ける。例えば利用者U(U1,U2)が操作する複数の操作子や、表示装置16の表示面に対する接触を検知するタッチパネルが入力装置18として好適に利用される。
The display device 16 (for example, a liquid crystal display panel) displays various images under the control of the
記憶装置14は、制御装置12が実行するプログラムや制御装置12が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置14として任意に採用され得る。第1実施形態の制御装置12は、記憶装置14に記憶されたプログラムを実行することで、利用者U1と利用者U2との会話を評価するための複数の機能(特徴取得部32,情報生成部34,会話評価部36)を実現する。なお、制御装置12の機能を複数の装置に分散した構成や、制御装置12の機能の一部または全部を専用の電子回路が実現する構成も採用され得る。
The
特徴取得部32は、利用者U1の音声V1の特徴量と利用者U2の音声V2の特徴量とを取得する。第1実施形態の特徴取得部32は、音声信号X1の解析により利用者U1の音声V1の特徴量を抽出し、音声信号X2の解析により利用者U2の音声V2の特徴量を抽出する。具体的には、音声V1および音声V2の各々について韻律に関する特徴量が抽出される。韻律は、受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記のみからでは把握できない性質を意味する。
The
第1実施形態の特徴取得部32は、利用者U1の音声V1の音高P1と利用者U2の音声V2の音高P2とを特徴量として抽出する。例えば、特徴取得部32は、音声信号X1の発話区間内の平均的な音高P1と音声信号X2の発話区間内の平均的な音高P2とを抽出する。発話区間は、発話が継続する区間(一連の発話の始点から終点までの区間)である。音高P1および音高P2の抽出には公知の音声解析技術が任意に採用され得る。
The
利用者U1が発話した音声V1の音高P1に対して特定の関係にある音高P2の音声V2で利用者U2が応答した場合に、利用者U1は、利用者U2の音声V2が心地良く安心感のある好印象な応答であると知覚する、という傾向がある。具体的には、利用者U1の音高P1に対して協和関係にある音高P2を利用者U2が発音した場合に、利用者U2の応答は良好な印象と感取される。また、利用者U2による応答の印象に特に大きく影響するのは、利用者U1による音声V1の発話区間のうち音声V2の発話区間の始点に近い末尾側の区間である。そこで、第1実施形態の特徴取得部32は、利用者U1の音声V1の発話区間のうち当該発話区間の末尾に位置する所定長(例えば180msec)の区間の音高P1を特定する。
When the user U2 responds with the voice V2 of the pitch P2 having a specific relationship with the pitch P1 of the voice V1 uttered by the user U1, the user U1 is comfortable with the voice V2 of the user U2. There is a tendency to perceive it as a good impression with a sense of security. Specifically, when the user U2 pronounces the pitch P2 having a cooperative relationship with the pitch P1 of the user U1, the response of the user U2 is felt as a good impression. In addition, what particularly affects the impression of the response by the user U2 is the end section close to the start point of the speech section of the voice V2 among the speech sections of the voice V1 by the user U1. Therefore, the
図1の情報生成部34は、利用者U1と利用者U2との会話について、特徴取得部32が抽出する特徴量とは別種の情報(以下「関連情報」という)Rを生成する。関連情報Rは、利用者U1と利用者U2との会話に関連する情報である。第1実施形態では、会話の時間的な状況を示す関連情報Rを例示する。具体的には、会話日時(例えば日付や時刻)と会話継続長(例えば会話開始からの経過時間)とを会話状況として示す関連情報Rを情報生成部34は生成する。例えば、情報生成部34は、計時回路(図示略)が計時する時刻を参照して会話日時および会話継続長を特定する。すなわち、例えば音声V1または音声V2における最新の発話区間の始点の日時が会話日時として特定され、音声V1または音声V2における最先の発話区間の開始時刻から現在時刻までの経過時間が会話継続長として特定される。
The
会話評価部36は、特徴取得部32が抽出した特徴量(音高P1,音高P2)と情報生成部34が生成した関連情報Rとに応じて利用者U1と利用者U2との会話を評価する。すなわち、会話評価部36は、音高P1および音高P2と関連情報Rとに応じた評価値Sを算定する。以上の説明から理解される通り、第1実施形態では、会話を構成する音声(V1,V2)自体の特徴量だけでなく特徴量以外の関連情報Rも会話の評価に加味される。会話評価部36が算定した評価値Sが表示装置16に表示される。
The
前述の通り、利用者U1の音声V1の音高P1に対して協和関係にある音高P2の音声V2で利用者U2が応答した場合に利用者U1は良好な印象を感取するという傾向がある。以上の傾向を考慮して、第1実施形態の会話評価部36は、音高P1と音高P2との音高差ΔP(ΔP=|P1−P2|)に応じて評価値Sを算定する。具体的には、音高差ΔPが協和関係に近いほど評価値Sが大きい数値となるように会話評価部36は評価値Sを算定する。第1実施形態で例示する協和関係は、例えば周波数比が整数比に近い音程の関係(例えば完全一度,完全八度,完全五度,完全四度)である。
As described above, when the user U2 responds with the voice V2 of the pitch P2 having a cooperative relationship with the pitch P1 of the voice V1 of the user U1, the user U1 tends to feel a good impression. is there. Considering the above tendency, the
以上の例示の通り、第1実施形態の会話評価部36は、音高P1と音高P2とを評価値Sに反映させるほか、利用者U1と利用者U2との会話に関する関連情報Rも加味して評価値Sを算定する。関連情報R(会話日時,会話継続長)と評価値Sとの具体的な関係を以下に例示する。
As described above, the
夜間や休日の会話は、親密な友人同士の会話である可能性が高いから、例えば平日の日中の会話(典型的には業務上の会話等)と比較して、利用者U1が利用者U2に好印象を感取する可能性が高いという傾向がある。以上の傾向を考慮して、関連情報Rで指定される会話日時が夜間や休日に該当する場合には、会話日時が平日の日中に該当する場合と比較して評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、会話日時が夜間や休日に該当する場合に所定値を評価値Sに加点する。
Since conversations at night and on holidays are likely to be conversations between close friends, the user U1 is the user compared to, for example, weekday daytime conversations (typically business conversations, etc.). There is a tendency that U2 has a high possibility of taking a good impression. Considering the above tendency, when the conversation date and time specified by the related information R corresponds to nighttime or holiday, the evaluation value S is larger than the case where the conversation date and time corresponds to daytime on weekdays. Thus, the
また、長時間にわたり会話が継続している場合には、相互に良好な印象を感取しながら利用者U1と利用者U2との会話が盛上がっている可能性が高い。以上の傾向を考慮して、関連情報Rで指定される会話継続長が長いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、会話継続長が所定の閾値を上回る場合に所定値を評価値Sに加点する。他方、会話が過度に長時間にわたる場合には、利用者U1および利用者U2の疲労により相互間の印象が悪化する可能性がある。以上の傾向を考慮すると、関連情報Rで指定される会話継続長が所定の閾値を上回る場合に評価値Sを減点することも可能である。なお、相異なる複数の閾値を利用することも可能である。例えば、第1閾値と第2閾値とを設定し(第1閾値<第2閾値)、会話継続長が第1閾値と第2閾値との間の数値である場合に評価値Sを加点する一方、会話継続長が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。
In addition, when the conversation continues for a long time, it is highly likely that the conversation between the user U1 and the user U2 is alive while feeling a good impression of each other. Considering the above tendency, the
図2は、第1実施形態の制御装置12が利用者U1と利用者U2との会話を評価する処理(以下「会話評価処理」という)のフローチャートである。例えば入力装置18に対する利用者U(U1,U2)からの指示や利用者Uによる発話の開始を契機として会話評価処理が開始される。
FIG. 2 is a flowchart of processing (hereinafter referred to as “conversation evaluation processing”) in which the
図2の会話評価処理を開始すると、特徴取得部32は、音声信号X1および音声信号X2の解析により利用者U1の音声V1の音高P1と利用者U2の音声V2の音高P2とを順次に抽出する(SA1)。また、情報生成部34は、例えば計時回路が計時する時刻を参照して関連情報R(第1実施形態では会話日時および会話継続長)を生成する(SA2)。会話評価部36は、特徴取得部32が抽出した特徴量(音高P1,音高P2)と情報生成部34が生成した関連情報Rとに応じた評価値Sを算定する(SA3)。なお、特徴取得部32による特徴量の抽出(SA1)と情報生成部34による関連情報Rの生成(SA2)との先後は逆転され得る。
When the conversation evaluation process of FIG. 2 is started, the
以上に例示した通り、第1実施形態では、会話を構成する音声V1および音声V2の特徴量に応じて利用者U1と利用者U2との間の会話を客観的に評価することが可能である。また、会話を構成する音声V1および音声V2の特徴量のほかに当該会話の関連情報Rも加味して会話が評価されるから、特徴量のみを評価結果に反映させる構成と比較して会話を適切に評価することが可能である。第1実施形態では特に、音声V1の音高P1と音声V2の音高P2との音高差ΔPに応じて会話が評価されるから、利用者U1の音声V1に対する利用者U2の音声V2の音程(すなわち音高差)という観点から、利用者U2による応答の印象の良否を客観的に評価することが可能である。 As illustrated above, in the first embodiment, it is possible to objectively evaluate the conversation between the user U1 and the user U2 according to the feature amounts of the voice V1 and the voice V2 constituting the conversation. . Further, since the conversation is evaluated in consideration of the related information R of the conversation in addition to the feature amounts of the voice V1 and the voice V2 constituting the conversation, the conversation is compared with the configuration in which only the feature amount is reflected in the evaluation result. Appropriate evaluation is possible. In the first embodiment, in particular, since the conversation is evaluated according to the pitch difference ΔP between the pitch P1 of the voice V1 and the pitch P2 of the voice V2, the voice V2 of the user U2 with respect to the voice V1 of the user U1. From the viewpoint of the pitch (ie, pitch difference), it is possible to objectively evaluate the quality of the impression of the response by the user U2.
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each form illustrated below, the reference | standard referred by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.
図3は、第2実施形態の会話評価装置100の構成図である。図3に例示される通り、第2実施形態の会話評価装置100の記憶装置14は、利用者Uの組合せ毎に履歴情報Hを記憶する。履歴情報Hは、利用者U間の過去の会話の履歴(会話履歴)に関する情報である。具体的には、第2実施形態の履歴情報Hは、利用者U間で過去に実施された会話の頻度(以下「会話頻度」という)と利用者U間での最初の会話からの経過時間(以下「関係期間」という)とを指定する。会話頻度は、所定長の期間(例えば1ヶ月間)内における会話の回数を意味する。利用者U間の会話毎に関連情報Rの会話頻度は更新される。会話頻度や関係期間は、利用者U間の親密度の指標とも換言され得る。
FIG. 3 is a configuration diagram of the
第2実施形態の情報生成部34は、記憶装置14に記憶された履歴情報Hを参照して関連情報Rを生成する。例えば、利用者U1および利用者U2は、入力装置18を適宜に操作することで自身の識別情報を会話評価装置100に指示する。情報生成部34は、識別情報が示す利用者U1と利用者U2との間の履歴情報Hを記憶装置14から検索し、当該履歴情報Hで指定された会話頻度と関係期間を含む関連情報Rを生成する。なお、特徴取得部32が音声V1の音高P1と音声V2の音高P2とを抽出する動作は第1実施形態と同様である。
The
会話頻度が高い場合には、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される会話頻度が高いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、会話頻度が所定の閾値を上回る場合に所定値を評価値Sに加点する。なお、相異なる複数の閾値を利用することも可能である。例えば、会話頻度が第1閾値と第2閾値(第1閾値<第2閾値)との間の数値である場合に評価値Sを加点する一方、会話頻度が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。
When the conversation frequency is high, the user U1 and the user U2 are in a good relationship, and there is a high possibility that the user U1 and the user U2 are talking while maintaining a good impression. Considering the above tendency, the
また、最初の会話からの関係期間が長い場合にも同様に、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される関係期間が長いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、関係期間が所定の閾値を上回る場合に所定値を評価値Sに加点する。なお、相異なる複数の閾値を利用することも可能である。例えば、関係期間が第1閾値と第2閾値(第1閾値<第2閾値)との間の数値である場合に評価値Sを加点する一方、関係期間が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。
Similarly, when the relationship period from the first conversation is long, there is a high possibility that the user U1 and the user U2 have a good relationship and are talking while maintaining a good impression. In consideration of the above tendency, the
以上に例示した通り、第2実施形態においても、会話を構成する音声V1および音声V2の特徴量のほかに当該会話の関連情報Rも加味して会話が評価される。したがって、第1実施形態と同様に、特徴量のみを評価に反映させる構成と比較して会話を適切に評価することが可能である。第2実施形態では特に、利用者U間の会話履歴(例えば会話頻度や関係期間)が関連情報Rとして利用されるから、利用者U間の過去の会話の傾向を踏まえた適切な評価が実現される。 As exemplified above, also in the second embodiment, the conversation is evaluated in consideration of the related information R of the conversation in addition to the feature amounts of the voice V1 and the voice V2 constituting the conversation. Therefore, similarly to the first embodiment, it is possible to appropriately evaluate the conversation as compared with the configuration in which only the feature amount is reflected in the evaluation. Particularly in the second embodiment, since the conversation history (for example, conversation frequency and relationship period) between the users U is used as the related information R, appropriate evaluation based on the tendency of past conversations between the users U is realized. Is done.
なお、以上の説明では、入力装置18に対する操作で指示された識別情報を利用したが、利用者U1および利用者U2を特定する方法は任意である。例えば、音声信号X1に対する話者識別で利用者U1を特定するとともに音声信号X2に対する話者識別で利用者U2を特定し、利用者U1と利用者U2との間の履歴情報Hを検索することも可能である。利用者U1および利用者U2の話者識別には公知の認識技術が任意に採用され得る。
In the above description, the identification information instructed by the operation on the
<第3実施形態>
図4は、第3実施形態の会話評価装置100の構成図である。図4に例示される通り、第3実施形態の会話評価装置100の記憶装置14は、利用者Uの組合せ毎に話者情報Qを記憶する。話者情報Qは、利用者U間の関係を示す情報である。具体的には、第3実施形態の話者情報Qは、利用者U間の相互関係(友人,家族,知人,同僚等)と利用者U間の親密度とを指定する。相互関係および親密度は、具体的には入力装置18に対する利用者Uからの操作で指示され得るが、例えばSNS(Social Networking Service)に登録された情報から話者情報Qに反映させることも可能である。
<Third Embodiment>
FIG. 4 is a configuration diagram of the
第3実施形態の情報生成部34は、記憶装置14に記憶された話者情報Qを参照して関連情報Rを生成する。例えば、情報生成部34は、第2実施形態と同様に識別情報の入力や話者識別で特定された利用者U1と利用者U2と間の話者情報Qを記憶装置14から検索し、当該話者情報Qで指定された相互関係と親密度とを含む関連情報Rを生成する。なお、特徴取得部32が音声V1の音高P1と音声V2の音高P2とを抽出する動作は第1実施形態と同様である。
The
相互関係が友人である場合には、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される相互関係が友人である場合には、相互関係が他の関係である場合と比較して評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。具体的には、会話評価部36は、利用者U1と利用者U2との相互関係が友人である場合に所定値を評価値Sに加点する。
When the mutual relationship is a friend, there is a high possibility that the user U1 and the user U2 have a good relationship and are talking while maintaining a good impression. In consideration of the above tendency, when the mutual relationship specified by the related information R is a friend, the conversation value is set so that the evaluation value S is larger than that when the mutual relationship is another relationship. The
また、親密度が高い場合にも同様に、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される親密度が高いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、親密度が所定の閾値を上回る場合に所定値を評価値Sに加点する。なお、相異なる複数の閾値を利用することも可能である。例えば、親密度が第1閾値と第2閾値(第1閾値<第2閾値)との間の数値である場合に評価値Sを加点する一方、親密度が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。
Similarly, when the intimacy is high, the user U1 and the user U2 are in a good relationship, and there is a high possibility that they are talking while maintaining a good impression. In consideration of the above tendency, the
以上に例示した通り、第3実施形態においても、会話を構成する音声V1および音声V2の特徴量のほかに当該会話の関連情報Rも加味して会話が評価される。したがって、第1実施形態と同様に、特徴量のみを評価に反映させる構成と比較して会話を適切に評価することが可能である。第3実施形態では特に、利用者U間の話者情報Q(例えば相互関係や親密度)が関連情報Rとして利用されるから、利用者U間の実際の関係を踏まえた適切な評価が実現される。 As exemplified above, also in the third embodiment, the conversation is evaluated in consideration of the related information R of the conversation in addition to the feature amounts of the voice V1 and the voice V2 constituting the conversation. Therefore, similarly to the first embodiment, it is possible to appropriately evaluate the conversation as compared with the configuration in which only the feature amount is reflected in the evaluation. Particularly in the third embodiment, since the speaker information Q (for example, mutual relationship and intimacy) between the users U is used as the related information R, an appropriate evaluation based on the actual relationship between the users U is realized. Is done.
<第4実施形態>
図5は、第4実施形態の会話評価装置100の構成図である。図5に例示される通り、第4実施形態の会話評価装置100の記憶装置14は、利用者U毎に属性情報Aを記憶する。属性情報Aは、利用者Uの属性(特徴や性質)を示す情報である。利用者Uが発音する音声に依存する情報が属性情報Aとして特に好適である。第4実施形態の属性情報Aは、利用者Uの発音周波数を指定する。発音周波数は、利用者Uが発音する音声の平均的な音高(平均ピッチ)である。
<Fourth embodiment>
FIG. 5 is a configuration diagram of the
第4実施形態の情報生成部34は、第2実施形態と同様に識別情報の入力や話者識別で特定された利用者U1および利用者U2の各々の属性情報Aを記憶装置14から検索し、各属性情報Aで指定された発音周波数を含む関連情報Rを生成する。すなわち、第4実施形態の関連情報Rは、評価対象の会話を実施する各利用者Uの情報であり、第1実施形態から第3実施形態で例示した関連情報Rと同様に、特徴取得部32が抽出する特徴量とは別個の種類の情報の一例である。
As in the second embodiment, the
第1実施形態から第3実施形態では、情報生成部34が生成した関連情報Rを会話評価部36による会話の評価に反映させる構成を例示したが、第4実施形態では、特徴取得部32による特徴量の抽出に関連情報Rが反映される。すなわち、第4実施形態の特徴取得部32は、情報生成部34が生成した関連情報Rに応じた条件で特徴量を抽出する。
In the first to third embodiments, the configuration in which the related information R generated by the
具体的には、特徴取得部32は、収音装置22が生成する音声信号X1のうち、関連情報Rが指定する利用者U1の発音周波数を含む所定帯域内の音響成分を抽出し、抽出後の音響成分から音高P1を特定する。すなわち、利用者U1が平常的に発音する音域に限定して音高P1が特定される。同様に、特徴取得部32は、収音装置24が生成する音声信号X2のうち関連情報Rが指定する利用者U2の発音周波数を含む所定帯域内の音響成分から音高P2を特定する。なお、利用者Uの発音域を指定する属性情報Aを関連情報Rとして利用することも可能である。
Specifically, the
会話評価部36は、以上の例示のように特徴取得部32が関連情報Rを使用して特定した音高P1および音高P2に応じて利用者U1と利用者U2との会話を評価する。具体的には、会話評価部36は、音高P1と音高P2との音高差ΔPに応じて評価値Sを算定する。第4実施形態における会話評価部36による評価には関連情報Rは加味されない。ただし、第1実施形態から第3実施形態の例示と同様に、第4実施形態でも会話評価部36による評価に関連情報Rを加味することは可能である。
The
以上に例示した通り、第4実施形態においても第1実施形態と同様に、会話を構成する音声V1および音声V2の特徴量に応じて利用者U1と利用者U2との間の会話を客観的に評価することが可能である。また、第4実施形態では、会話に関する関連情報Rに応じた条件で特徴量(音高P1,音高P2)が抽出されるから、特徴量の抽出に関連情報Rを利用しない構成と比較して特徴量を適切に抽出できるという利点がある。例えば、第4実施形態では、関連情報Rが指定する発音周波数に対応した周波数帯域に制限することで特徴量を高精度に抽出することが可能である。 As illustrated above, in the fourth embodiment, as in the first embodiment, the conversation between the user U1 and the user U2 is objective according to the feature amounts of the voice V1 and the voice V2 constituting the conversation. It is possible to evaluate. Further, in the fourth embodiment, since feature quantities (pitch P1, pitch P2) are extracted under conditions according to the related information R related to conversation, the comparison is made with a configuration that does not use the related information R for feature quantity extraction. Thus, there is an advantage that the feature amount can be appropriately extracted. For example, in the fourth embodiment, it is possible to extract feature quantities with high accuracy by limiting to a frequency band corresponding to the sound generation frequency specified by the related information R.
なお、以上の例示では、利用者Uの発音周波数を属性情報Aとして例示したが、属性情報Aの内容は以上の例示に限定されない。例えば、利用者Uの性別を指定する属性情報Aを利用することも可能である。特徴取得部32は、関連情報Rが指定する性別について想定される周波数帯域内で音高Pを特定する。例えば、特徴取得部32は、関連情報Rが指定する利用者U1の性別が女性である場合には、音声信号X1のうち女性に想定される高音域の音響成分から音高P1を抽出し、利用者U1の性別が男性である場合には、音声信号X1のうち男性に想定される低音域の音響成分から音高P1を抽出する。
In the above example, the pronunciation frequency of the user U is exemplified as the attribute information A, but the content of the attribute information A is not limited to the above example. For example, it is possible to use attribute information A that specifies the sex of the user U. The
なお、利用者U1の音声V1と利用者U2の音声V2との音高差が1オクターブを上回る場合に、音高P1および音高P2の一方を他方に対して1オクターブの整数倍だけ近付けることで両者間の音高差を1オクターブ以内に補正(以下「音高補正」という)する構成が好適である。利用者U1と利用者U2とで性別が相違する場合(すなわち音高差が大きい場合)には、音高補正の必要性が高いと推定される。以上の傾向を考慮すると、関連情報Rが指定する性別が利用者U1と利用者U2とで相違する場合には特徴取得部32が音高補正を実行し、利用者U1と利用者U2とで性別が共通する場合には特徴取得部32が音高補正を省略する構成も好適である。
When the pitch difference between the voice V1 of the user U1 and the voice V2 of the user U2 exceeds 1 octave, one of the pitch P1 and the pitch P2 is brought closer to the other by an integer multiple of 1 octave. Therefore, it is preferable to correct the pitch difference between the two within one octave (hereinafter referred to as “pitch correction”). When the gender is different between the user U1 and the user U2 (that is, when the pitch difference is large), it is estimated that the necessity for pitch correction is high. Considering the above tendency, if the gender specified by the related information R is different between the user U1 and the user U2, the
<第5実施形態>
第5実施形態の情報生成部34は、第3実施形態と同様に、記憶装置14に記憶された話者情報Qを参照することで、利用者U1と利用者U2との間の親密度を指定する関連情報Rを生成する。特徴取得部32は、第4実施形態と同様に、情報生成部34が生成した関連情報Rに応じた条件で利用者U1の音声V1および利用者U2の音声V2の各々の特徴量(音高P1,音高P2)を抽出する。具体的には、特徴取得部32は、関連情報Rが指定する親密度に応じた頻度で特徴量を抽出する。
<Fifth Embodiment>
As in the third embodiment, the
例えば親密度が高い場合には、利用者U1と利用者U2とが良好な関係にあるから、評価値Sは比較的に大きい数値になると予想される。親密度が低い場合には、評価値Sの大小の予想は困難である。したがって、親密度が高い場合には頻繁に会話を評価する必要性は低く、親密度が低い場合には頻繁に会話を評価する必要がある、という傾向が想定される。以上の傾向を考慮して、第5実施形態の特徴取得部32は、関連情報Rで指定される親密度が高いほど、特徴量(音高P1,音高P2)の抽出の頻度を低下させる。
For example, when the intimacy is high, the user U1 and the user U2 are in a good relationship, so the evaluation value S is expected to be a relatively large numerical value. When the familiarity is low, it is difficult to predict the magnitude of the evaluation value S. Therefore, it is assumed that the necessity of frequently evaluating conversations is low when the intimacy is high, and that it is necessary to frequently evaluate conversations when the intimacy is low. In consideration of the above tendency, the
具体的には、特徴取得部32は、親密度が所定の閾値を上回る場合に、親密度が閾値を下回る場合と比較して低い頻度で特徴量を抽出する。例えば、親密度が閾値を下回る場合には、音声V1および音声V2の相前後する発話区間の1組毎に(すなわち、利用者U1による発話と利用者U2による応答との組毎に1回の頻度で)音高P1および音高P2が抽出される。他方、親密度が閾値を上回る場合には、音声V1および音声V2の発話区間の複数組毎に(すなわち、利用者U1による発話と利用者U2による応答との複数回毎に1回の頻度で)音高P1および音高P2が抽出される。会話評価部36による会話の評価は特徴取得部32による特徴量の抽出毎に実行されるから、関連情報Rで指定される親密度が高いほど、会話評価部36による評価の頻度(さらには表示装置16に表示される評価値Sの更新の頻度)は低下する。なお、相異なる複数の閾値を利用することも可能である。例えば、複数の閾値の各々を境界とする範囲毎に頻度を設定し、複数の範囲のうち親密度が属する範囲に対応した頻度で特徴取得部32が特徴量を抽出する構成が想定される。
Specifically, the
以上に例示した通り、第5実施形態においても第1実施形態と同様に、会話を構成する音声V1および音声V2の特徴量に応じて利用者U1と利用者U2との間の会話を客観的に評価することが可能である。また、第5実施形態では、関連情報Rに応じた条件で特徴量(音高P1,音高P2)が抽出されるから、第4実施形態と同様に、特徴量の抽出に関連情報Rを利用しない構成と比較して特徴量を適切に抽出できるという利点がある。例えば第5実施形態では、特徴量の抽出の頻度が関連情報Rに応じて制御されるから、特徴量の抽出に関連情報Rを利用しない構成と比較して、特徴取得部32による特徴量の抽出と会話評価部36による会話の評価とに必要な演算量を削減することが可能である。
As illustrated above, in the fifth embodiment, as in the first embodiment, the conversation between the user U1 and the user U2 is objective according to the feature amounts of the voice V1 and the voice V2 constituting the conversation. It is possible to evaluate. Further, in the fifth embodiment, feature amounts (pitch P1, pitch P2) are extracted under the conditions according to the related information R. Therefore, as in the fourth embodiment, the related information R is extracted for feature amount extraction. There is an advantage that the feature amount can be appropriately extracted as compared with the configuration that is not used. For example, in the fifth embodiment, since the frequency of feature quantity extraction is controlled according to the related information R, the feature quantity obtained by the
なお、第5実施形態の例示では、利用者U間の親密度に応じて特徴量の抽出条件(具体的には頻度)を制御したが、特徴量の抽出条件に反映させる関連情報Rの内容は以上の例示に限定されない。例えば、第1実施形態から第3実施形態で例示した任意の関連情報Rを、特徴量の抽出条件の制御に適用することが可能である。例えば、第2実施形態で例示した会話頻度や関係期間に応じて特徴量の抽出条件を制御する構成(例えば、会話頻度が高いほど、または、関係期間が長いほど、特徴量の抽出の頻度を低下させる構成)も想定される。 In the illustration of the fifth embodiment, the feature quantity extraction condition (specifically, the frequency) is controlled according to the familiarity between the users U, but the content of the related information R to be reflected in the feature quantity extraction condition. Is not limited to the above examples. For example, any related information R exemplified in the first to third embodiments can be applied to control of the feature amount extraction condition. For example, the configuration for controlling the feature quantity extraction condition according to the conversation frequency and the relation period exemplified in the second embodiment (for example, the higher the conversation frequency or the longer the relation period, the more the feature quantity extraction frequency is A configuration to be reduced) is also assumed.
また、会話評価部36による会話の評価に関連情報Rを加味する第1実施形態から第3実施形態の構成と、特徴取得部32による特徴量の抽出条件を関連情報Rに応じて制御する第4実施形態および第5実施形態の構成とを併合することも可能である。会話評価部36による会話の評価と特徴量の抽出条件の制御とには、相異なる種類の関連情報Rが好適に適用され得るが、関連情報Rを共通に適用することも可能である。例えば、関連情報Rが会話頻度を含む構成では、特徴取得部32による特徴量の抽出頻度を会話頻度に応じて制御するとともに、第2実施形態の例示のように会話評価部36による会話の評価にも会話頻度を流用することが可能である。
In addition, the configurations of the first to third embodiments in which the related information R is added to the conversation evaluation by the
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
<Modification>
Each aspect illustrated above can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined within a range that does not contradict each other.
(1)前述の各形態では、利用者U1が発音した音声V1と利用者U2が発音した音声V2とで構成される会話を評価したが、会話評価装置100が評価する音声は、利用者Uによる発声音(すなわち肉声)に限定されない。具体的には、音声V1および音声V2の一方を、公知の音声合成技術により生成された合成音声とすることも可能である。例えば、利用者U1が発音した音声V1と音声合成で生成された音声V2とで構成される会話の評価にも前述の各形態と同様の構成が採用され得る。すなわち、利用者U1の音声V1に対する音声認識により発話内容を解析することで、利用者U1の発話に対する適切な応答の音声V2が生成される。事前に収録された複数の音声を選択的に音声V2として選択することも可能である。また、音声合成で生成された音声V1と利用者U2が発音した音声V2とで構成される会話を評価する構成や、音声合成で生成された音声V1および音声V2で構成される会話を評価する構成も採用され得る。
(1) In each of the above-described embodiments, the conversation composed of the voice V1 sounded by the user U1 and the voice V2 sounded by the user U2 is evaluated, but the voice evaluated by the
前述のように音声合成で音声V1および音声V2を生成する構成では、収音装置22や収音装置24が省略される。また、合成音声を利用する構成では、音声の音響的な特性(例えば音高や音量)を指定する音声合成用のパラメータを音声V1や音声V2の特徴量として特徴取得部32が取得することも可能である。以上の構成では、音声信号X1の解析で音声V1の特徴量を抽出する処理や、音声信号X2の解析で音声V2の特徴量を抽出する処理は省略され得る。以上の説明から理解される通り、特徴取得部32は、会話を構成する音声(V1,V2)の特徴量を取得する要素として包括的に表現され、特徴抽出のための解析処理により特徴量を音声信号から抽出する要素のほか、抽出以外の任意の方法で特徴量を取得する要素も包含する。すなわち、特徴量の「抽出」は特徴量の「取得」の一例である。
As described above, in the configuration in which the speech V1 and the speech V2 are generated by speech synthesis, the
(2)前述の各形態では、会話評価部36が算定した評価値Sを表示装置16に表示させたが、会話評価部36による評価結果の形態は評価値Sに限定されない。例えば、評価値Sに応じた評価コメントを表示装置16に表示させる(評価値Sの表示の有無は不問)ことも可能である。また、評価結果の出力方法は表示に限定されない。例えば、評価値Sや評価コメントを音声で出力することも可能である。
(2) In each embodiment described above, the evaluation value S calculated by the
(3)特徴量(音高P1,音高P2)と関連情報Rとに応じて評価値Sを算定する方法は、前述の各形態での例示に限定されない。例えば、特徴量に応じて会話を評価した数値と関連情報Rに応じて算定された数値とを適用した演算(例えば加重和)により評価値Sを算定することも可能である。また、例えば特徴量と評価値Sとの関係(例えば両者間の関係を規定する演算式の種類や係数)を関連情報Rに応じて変化させる構成でも、特徴量と関連情報Rとの双方に応じた評価値Sを算定することが可能である。 (3) The method of calculating the evaluation value S according to the feature amount (pitch P1, pitch P2) and the related information R is not limited to the examples in the above-described embodiments. For example, the evaluation value S can be calculated by an operation (for example, a weighted sum) in which a numerical value obtained by evaluating conversation according to a feature amount and a numerical value calculated according to related information R are applied. Further, for example, even in a configuration in which the relationship between the feature quantity and the evaluation value S (for example, the type or coefficient of an arithmetic expression that defines the relationship between the two) is changed according to the related information R, both the feature quantity and the related information R are used. A corresponding evaluation value S can be calculated.
(4)特徴取得部32が抽出する特徴量は音高(P1,P2)に限定されない。例えば、音声V1および音声V2の各々の音量を特徴量として特徴取得部32が抽出することも可能である。会話評価部36は、例えば、音声V1と音声V2との間の音量差に応じて会話を評価する。例えば、音声V1と音声V2との間の音量差が所定値に近いほど評価値Sが大きい数値となるように会話評価部36は評価値Sを算定する。
(4) The feature quantity extracted by the
音声V1の発話区間と音声V2の発話区間との間隔(以下「発話間隔」という)を特徴取得部32が特徴量として抽出することも可能である。会話時の発話間隔が適切である場合には、会話の相手の音声が安心感のある好印象な発話であると知覚される、という傾向がある。以上の傾向を考慮すると、発話間隔が所定値に近いほど評価値Sが大きい数値となるように、会話評価部36が評価値Sを算定する構成が好適である。
It is also possible for the
(5)情報生成部34が関連情報Rを生成する方法は前述の各形態の例示に限定されない。具体的には、音声信号X1および音声信号X2を解析した結果から情報生成部34が関連情報Rを生成することも可能である。例えば、特徴取得部32が音声V1の音高P1と音声V2の音高P2とを特定した結果を利用して、情報生成部34が、利用者U1および利用者U2の各々の性別を推定し、第4実施形態と同様に、利用者U1および利用者U2の性別を指定した関連情報Rを生成することも可能である。
(5) The method by which the
(6)携帯電話機やスマートフォン等の端末装置と通信するサーバ装置(単体の装置または複数の装置で構成されるサーバシステム)で会話評価装置100を実現することも可能である。例えば、会話評価装置100は、音声信号X1と音声信号X2とを端末装置から受信し、前述の各形態と同様の方法で利用者U1と利用者U2との会話を評価した結果(例えば評価値S)を端末装置に送信する。
(6) The
(7)前述の各形態で例示した会話評価装置100は、前述の通り、制御装置12とプログラムとの協働で実現され得る。例えば第1実施形態から第3実施形態に対応する第1態様のプログラムは、制御装置12等のコンピュータ(例えば単数または複数の処理回路)を、会話を構成する音声の特徴量を取得する特徴取得部32、会話について特徴量とは別種の関連情報Rを生成する情報生成部34、および、特徴量と関連情報Rとに応じて会話を評価する会話評価部36として機能させる。
(7) As described above, the
また、第4実施形態または第5実施形態に対応する第2態様のプログラムは、制御装置12等のコンピュータ(例えば単数または複数の処理回路)を、会話を構成する音声の特徴量を取得する特徴取得部32、会話について特徴量とは別種の関連情報Rを生成する情報生成部34、および、特徴量に応じて会話を評価する会話評価部36として機能させるプログラムであり、特徴取得部32は、関連情報Rに応じた条件で特徴量を取得する。
Further, the program of the second aspect corresponding to the fourth embodiment or the fifth embodiment is a feature in which a computer (for example, one or a plurality of processing circuits) such as the
以上に例示した各態様のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。 The program of each aspect illustrated above can be provided in the form stored in the computer-readable recording medium, and can be installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. It is also possible to distribute the program to a computer in the form of distribution via a communication network.
(8)本発明の好適な態様は、前述の各形態で例示した会話評価装置100の動作方法(会話評価方法)としても特定され得る。第1態様に係る会話評価方法は、コンピュータ(単体のコンピュータまたは複数のコンピュータで構成されるシステム)が、会話を構成する音声の特徴量を取得し、会話について特徴量とは別種の関連情報Rを生成し、特徴量と関連情報Rとに応じて会話を評価する。第2態様に係る会話評価方法は、コンピュータが、会話を構成する音声の特徴量を取得し、会話について特徴量とは別種の関連情報Rを生成し、特徴量と関連情報Rとに応じて会話を評価する方法であって、特徴量の取得においては、関連情報Rに応じた条件で特徴量を取得する。
(8) A preferred aspect of the present invention can also be specified as an operation method (conversation evaluation method) of the
100…会話評価装置、12…制御装置、14…記憶装置、16…表示装置、18…入力装置、22…収音装置、24…収音装置、32…特徴取得部、34…情報生成部、36…会話評価部。
DESCRIPTION OF
Claims (7)
前記会話について前記特徴量とは別種の関連情報を生成する情報生成部と、
前記特徴量と前記関連情報とに応じて前記会話を評価する会話評価部と
を具備する会話評価装置。 A feature acquisition unit for acquiring the feature amount of the speech constituting the conversation;
An information generating unit that generates related information different from the feature amount for the conversation;
A conversation evaluation unit comprising: a conversation evaluation unit that evaluates the conversation according to the feature amount and the related information.
請求項1の会話評価装置。 The conversation evaluation apparatus according to claim 1, wherein the feature acquisition unit acquires the feature amount under a condition corresponding to the related information.
前記会話について前記特徴量とは別種の関連情報を生成する情報生成部と、
前記特徴量に応じて前記会話を評価する会話評価部とを具備し、
前記特徴取得部は、前記関連情報に応じた条件で前記特徴量を取得する
会話評価装置。 A feature acquisition unit for acquiring the feature amount of the speech constituting the conversation;
An information generating unit that generates related information different from the feature amount for the conversation;
A conversation evaluation unit that evaluates the conversation according to the feature amount;
The feature acquisition unit acquires the feature amount under a condition according to the related information.
前記会話評価部は、前記第1音声と前記第2音声との音高差に応じて前記会話を評価する
請求項1から請求項3の何れかの会話評価装置。 The feature acquisition unit acquires the pitch of each of the first voice and the second voice constituting the conversation as the feature amount,
The conversation evaluation apparatus according to claim 1, wherein the conversation evaluation unit evaluates the conversation according to a pitch difference between the first sound and the second sound.
請求項1から請求項4の何れかの会話評価装置。 The related information indicates at least one of a temporal situation of the conversation, a history of past conversations between speakers of the conversation, a relationship between speakers of the conversation, and attributes of each speaker of the conversation. It is information. The conversation evaluation apparatus in any one of Claims 1-4.
会話を構成する音声の特徴量を取得する特徴取得部、
前記会話について前記特徴量とは別種の関連情報を生成する情報生成部、および、
前記特徴量と前記関連情報とに応じて前記会話を評価する会話評価部
として機能させるプログラム。 Computer
A feature acquisition unit for acquiring feature amounts of speech constituting a conversation;
An information generation unit that generates related information different from the feature amount for the conversation; and
A program that functions as a conversation evaluation unit that evaluates the conversation according to the feature amount and the related information.
会話を構成する音声の特徴量を取得する特徴取得部、
前記会話について前記特徴量とは別種の関連情報を生成する情報生成部、および、
前記特徴量に応じて前記会話を評価する会話評価部
として機能させるプログラムであり、
前記特徴取得部は、前記関連情報に応じた条件で前記特徴量を取得する
プログラム。
Computer
A feature acquisition unit for acquiring feature amounts of speech constituting a conversation;
An information generation unit that generates related information different from the feature amount for the conversation; and
A program that functions as a conversation evaluation unit that evaluates the conversation according to the feature amount;
The feature acquisition unit is a program for acquiring the feature amount under a condition corresponding to the related information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016042271A JP6746963B2 (en) | 2016-03-04 | 2016-03-04 | Conversation evaluation device, program, and conversation evaluation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016042271A JP6746963B2 (en) | 2016-03-04 | 2016-03-04 | Conversation evaluation device, program, and conversation evaluation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017156688A true JP2017156688A (en) | 2017-09-07 |
JP6746963B2 JP6746963B2 (en) | 2020-08-26 |
Family
ID=59809797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016042271A Active JP6746963B2 (en) | 2016-03-04 | 2016-03-04 | Conversation evaluation device, program, and conversation evaluation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6746963B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06161494A (en) * | 1992-11-18 | 1994-06-07 | Nippon Hoso Kyokai <Nhk> | Automatic extracting method for pitch section of speech |
JP2004514178A (en) * | 2000-11-17 | 2004-05-13 | フォルスカーパテント アイ エスワイディ アクチボラゲット | Method and apparatus for voice analysis |
JP2010054568A (en) * | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | Emotional identification device, method and program |
JP2011242755A (en) * | 2010-04-22 | 2011-12-01 | Fujitsu Ltd | Utterance state detection device, utterance state detection program and utterance state detection method |
US20140025376A1 (en) * | 2012-07-17 | 2014-01-23 | Nice-Systems Ltd | Method and apparatus for real time sales optimization based on audio interactions analysis |
JP2016021044A (en) * | 2014-06-16 | 2016-02-04 | パナソニックIpマネジメント株式会社 | Customer service evaluation device, customer service evaluation system, and customer service evaluation method |
-
2016
- 2016-03-04 JP JP2016042271A patent/JP6746963B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06161494A (en) * | 1992-11-18 | 1994-06-07 | Nippon Hoso Kyokai <Nhk> | Automatic extracting method for pitch section of speech |
JP2004514178A (en) * | 2000-11-17 | 2004-05-13 | フォルスカーパテント アイ エスワイディ アクチボラゲット | Method and apparatus for voice analysis |
JP2010054568A (en) * | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | Emotional identification device, method and program |
JP2011242755A (en) * | 2010-04-22 | 2011-12-01 | Fujitsu Ltd | Utterance state detection device, utterance state detection program and utterance state detection method |
US20140025376A1 (en) * | 2012-07-17 | 2014-01-23 | Nice-Systems Ltd | Method and apparatus for real time sales optimization based on audio interactions analysis |
JP2016021044A (en) * | 2014-06-16 | 2016-02-04 | パナソニックIpマネジメント株式会社 | Customer service evaluation device, customer service evaluation system, and customer service evaluation method |
Also Published As
Publication number | Publication date |
---|---|
JP6746963B2 (en) | 2020-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6755304B2 (en) | Information processing device | |
CN104080024B (en) | Volume leveller controller and control method and audio classifiers | |
US8484035B2 (en) | Modification of voice waveforms to change social signaling | |
CN105593936B (en) | System and method for text-to-speech performance evaluation | |
CN105869626A (en) | Automatic speech rate adjusting method and terminal | |
JP6440967B2 (en) | End-of-sentence estimation apparatus, method and program thereof | |
CN108922525B (en) | Voice processing method, device, storage medium and electronic equipment | |
JP2007286377A (en) | Answer evaluating device and method thereof, and program and recording medium therefor | |
US11443731B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs | |
CN103377651A (en) | Device and method for automatic voice synthesis | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
WO2022039968A1 (en) | Word replacement in transcriptions | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
CN108053826B (en) | Method and device for man-machine interaction, electronic equipment and storage medium | |
JP6268916B2 (en) | Abnormal conversation detection apparatus, abnormal conversation detection method, and abnormal conversation detection computer program | |
CN112349266A (en) | Voice editing method and related equipment | |
Möller et al. | Comparison of approaches for instrumentally predicting the quality of text-to-speech systems | |
JP6327252B2 (en) | Analysis object determination apparatus and analysis object determination method | |
EP2541544A1 (en) | Voice sample tagging | |
CN114566187B (en) | Method of operating a system comprising an electronic device, electronic device and system thereof | |
JP6746963B2 (en) | Conversation evaluation device, program, and conversation evaluation method | |
Li et al. | Adversarial speech generation and natural speech recovery for speech content protection | |
Mital | Speech enhancement for automatic analysis of child-centered audio recordings | |
JP6078402B2 (en) | Speech recognition performance estimation apparatus, method and program thereof | |
JP2010256765A (en) | Method, device and program for extracting user profile |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200720 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6746963 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |