JP6746963B2 - Conversation evaluation device, program, and conversation evaluation method - Google Patents

Conversation evaluation device, program, and conversation evaluation method Download PDF

Info

Publication number
JP6746963B2
JP6746963B2 JP2016042271A JP2016042271A JP6746963B2 JP 6746963 B2 JP6746963 B2 JP 6746963B2 JP 2016042271 A JP2016042271 A JP 2016042271A JP 2016042271 A JP2016042271 A JP 2016042271A JP 6746963 B2 JP6746963 B2 JP 6746963B2
Authority
JP
Japan
Prior art keywords
conversation
user
voice
pitch
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016042271A
Other languages
Japanese (ja)
Other versions
JP2017156688A (en
Inventor
英樹 阪梨
英樹 阪梨
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016042271A priority Critical patent/JP6746963B2/en
Publication of JP2017156688A publication Critical patent/JP2017156688A/en
Application granted granted Critical
Publication of JP6746963B2 publication Critical patent/JP6746963B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、音声による会話を評価する技術に関する。 The present invention relates to a technique for evaluating voice conversation.

発話音声の解析により種々の事柄を評価する技術が従来から提案されている。例えば特許文献1には、発話音声の音程シーケンスにおける基音の間隔から話者の心理的または生理的な状態を推定する技術が開示されている。 Conventionally, a technique for evaluating various matters by analyzing a speech voice has been proposed. For example, Patent Document 1 discloses a technique of estimating the psychological or physiological state of a speaker from the interval of fundamental tones in the pitch sequence of the spoken voice.

特許第4495907号公報Japanese Patent No. 4495907

しかし、特許文献1の技術では、特定の話者の状態が推定されるに過ぎず、例えば複数の話者間の音声による会話(例えば発話に対する応答の音声の印象)を客観的に評価することはできない。以上の事情を考慮して、本発明は、音声による会話を客観的に評価することを目的とする。 However, the technique of Patent Document 1 merely estimates the state of a specific speaker, and objectively evaluates, for example, a voice conversation between a plurality of speakers (for example, an impression of a voice as a response to an utterance). I can't. In consideration of the above circumstances, the present invention aims to objectively evaluate a voice conversation.

以上の課題を解決するために、本発明の第1態様に係る会話評価装置は、会話を構成する音声の特徴量を取得する特徴取得部と、会話について特徴量とは別種の関連情報を生成する情報生成部と、特徴量と関連情報とに応じて会話を評価する会話評価部とを具備する。以上の態様では、会話を構成する音声の特徴量に応じて当該会話を客観的に評価することが可能である。また、特徴量とは別種の関連情報が特徴量とともに会話の評価に加味されるから、特徴量のみを評価に反映させる構成と比較して会話を適切に評価することが可能である。 In order to solve the above problems, the conversation evaluation apparatus according to the first aspect of the present invention generates a feature acquisition unit that acquires a feature amount of a voice forming a conversation and a related information that is different from the feature amount regarding the conversation. And a conversation evaluation unit that evaluates the conversation according to the feature amount and the related information. In the above aspect, it is possible to objectively evaluate the conversation according to the feature amount of the voice that constitutes the conversation. In addition, since the related information different from the feature amount is added to the evaluation of the conversation together with the feature amount, it is possible to appropriately evaluate the conversation as compared with the configuration in which only the feature amount is reflected in the evaluation.

本発明の好適な態様において、特徴取得部は、関連情報に応じた条件で特徴量を取得する。以上の態様では、関連情報に応じた条件で特徴量が取得されるから、特徴量の取得に関連情報を利用しない構成と比較して特徴量を適切に取得できるという利点がある。 In a preferred aspect of the present invention, the characteristic acquisition unit acquires the characteristic amount under a condition according to the related information. In the above aspect, since the characteristic amount is acquired under the condition according to the related information, there is an advantage that the characteristic amount can be appropriately acquired as compared with the configuration in which the related information is not used for acquiring the characteristic amount.

本発明の第2態様に係る会話評価装置は、会話を構成する音声の特徴量を取得する特徴取得部と、会話について特徴量とは別種の関連情報を生成する情報生成部と、特徴量に応じて会話を評価する会話評価部とを具備し、特徴取得部は、関連情報に応じた条件で特徴量を取得する。以上の態様では、会話を構成する音声の特徴量に応じて当該会話を客観的に評価することが可能である。また、関連情報に応じた条件で特徴量が取得されるから、特徴量の取得に関連情報を利用しない構成と比較して特徴量を適切に取得できるという利点がある。 A conversation evaluation apparatus according to a second aspect of the present invention includes a feature acquisition unit that acquires a feature amount of a voice forming a conversation, an information generation unit that generates related information of a conversation different from the feature amount, and a feature amount. And a conversation evaluation unit that evaluates the conversation accordingly, and the feature acquisition unit acquires the feature amount under a condition according to the related information. In the above aspect, it is possible to objectively evaluate the conversation according to the feature amount of the voice that constitutes the conversation. Further, since the characteristic amount is acquired under the condition according to the related information, there is an advantage that the characteristic amount can be appropriately acquired as compared with the configuration in which the related information is not used for acquiring the characteristic amount.

前述の各態様に係る会話評価装置の好適例において、特徴取得部は、会話を構成する第1音声および第2音声の各々の音高を特徴量として取得し、会話評価部は、第1音声と第2音声との音高差に応じて会話を評価する。以上の態様では、第1音声と第2音声との音高差に応じて会話が評価されるから、発話音声の音高に対する応答音声の音高の関係という観点から応答音声の印象の良否を客観的に評価することが可能である。 In a preferred example of the conversation evaluation device according to each of the above-described aspects, the feature acquisition unit acquires the pitch of each of the first voice and the second voice that form a conversation as a feature amount, and the conversation evaluation unit uses the first voice. The conversation is evaluated according to the pitch difference between the second voice and the second voice. In the above aspect, since the conversation is evaluated according to the pitch difference between the first voice and the second voice, the quality of the impression of the response voice is judged from the viewpoint of the relationship between the pitch of the utterance voice and the pitch of the response voice. It can be evaluated objectively.

前述の各態様において、関連情報は、例えば、会話の時間的な状況、会話の話者間における過去の会話の履歴、会話の話者間の関係、および、会話の各話者の属性の少なくともひとつを示す情報である。 In each of the aforementioned aspects, the relevant information is, for example, at least the temporal situation of the conversation, the history of past conversations between the speakers of the conversation, the relationship between the speakers of the conversation, and the attributes of each speaker of the conversation. This is one piece of information.

第1実施形態の会話評価装置の構成図である。It is a block diagram of the conversation evaluation apparatus of 1st Embodiment. 会話評価処理のフローチャートである。It is a flow chart of conversation evaluation processing. 第2実施形態の会話評価装置の構成図である。It is a block diagram of the conversation evaluation apparatus of 2nd Embodiment. 第3実施形態の会話評価装置の構成図である。It is a block diagram of the conversation evaluation apparatus of 3rd Embodiment. 第4実施形態の会話評価装置の構成図である。It is a block diagram of the conversation evaluation apparatus of 4th Embodiment.

<第1実施形態>
図1は、本発明の第1実施形態に係る会話評価装置100の構成図である。第1実施形態の会話評価装置100は、利用者U1と利用者U2との間の会話を評価する解析装置であり、例えば好印象な会話の訓練に好適に使用される。利用者U1が発音する音声V1(第1音声の例示)と利用者U2が発音する音声V2(第2音声の例示)とで会話が構成される。
<First Embodiment>
FIG. 1 is a configuration diagram of a conversation evaluation device 100 according to the first embodiment of the present invention. The conversation evaluation device 100 according to the first embodiment is an analysis device that evaluates a conversation between the user U1 and the user U2, and is preferably used for training a good conversation, for example. A conversation is composed of the voice V1 (an example of the first voice) pronounced by the user U1 and the voice V2 (an example of the second voice) pronounced by the user U2.

第1実施形態では、例えば問掛けおよび話掛けを含む発話の音声V1を利用者U1が発音し、利用者U1からの問掛けに対する回答や話掛けに対する受応えを含む応答の音声V2を利用者U2が発音する場合を想定する。利用者U2が発音する音声V2は、例えば間投詞を意味する音声である。例えば、「うん」「ええ」等の相鎚や、「え〜と」「あの〜」等の言淀み(応答の停滞)、「はい」「いいえ」等の回答(質問に対する肯定/否定)、話者の感動を表す「ああ」「おお」等の語句、あるいは、発話に対する問返し(聞き直し)を意味する「え?」「なに?」等の語句が、間投詞として例示され得る。 In the first embodiment, for example, the user U1 pronounces a voice V1 of an utterance including an inquiry and a talk, and a voice V2 of a response including an answer to the inquiry from the user U1 and an answer to the talk from the user U1 to the user. Suppose U2 is pronounced. The voice V2 pronounced by the user U2 is, for example, a voice meaning an interjection. For example, "yes", "yes", etc., stagnation such as "e-to", "that-", etc. (stagnation in response), "yes", "no", etc. answers (affirmation/denial to the question), Words such as “oh” and “oh” that express the emotion of the speaker, or words and phrases such as “e?” and “what?” that mean a question (repeat) to the utterance can be exemplified as the interjection.

図1に例示される通り、第1実施形態の会話評価装置100は、制御装置12と記憶装置14と表示装置16と入力装置18と収音装置22と収音装置24とを具備するコンピュータシステムで実現される。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置またはパーソナルコンピュータ等の情報処理装置で会話評価装置100は実現され得る。なお、相互に別体で構成された複数の装置により会話評価装置100を実現することも可能である。 As illustrated in FIG. 1, the conversation evaluation device 100 according to the first embodiment is a computer system including a control device 12, a storage device 14, a display device 16, an input device 18, a sound collecting device 22, and a sound collecting device 24. Will be realized in. For example, the conversation evaluation device 100 can be realized by a portable information processing device such as a mobile phone or a smartphone or an information processing device such as a personal computer. It is also possible to realize the conversation evaluation device 100 by a plurality of devices configured separately from each other.

収音装置22および収音装置24は、周囲の音響を収音する音声入力機器である。収音装置22は、利用者U1が発音した音声V1を表す音声信号X1を生成し、収音装置24は、利用者U2が発音した音声V2を表す音声信号X2を生成する。なお、音声信号X1および音声信号X2の各々をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。 The sound pickup device 22 and the sound pickup device 24 are voice input devices that pick up ambient sounds. The sound collecting device 22 generates a sound signal X1 representing the sound V1 sounded by the user U1, and the sound collecting device 24 generates a sound signal X2 representing the sound V2 sounded by the user U2. The A/D converter for converting each of the audio signal X1 and the audio signal X2 from analog to digital is omitted for convenience of illustration.

制御装置12は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成され、会話評価装置100の各要素を統括的に制御する。具体的には、制御装置12は、収音装置22が生成する音声信号X1と収音装置24が生成する音声信号X2とを解析することで、利用者U1と利用者U2との会話を評価する。第1実施形態の制御装置12は、利用者U1の発話に対する利用者U2の応答について印象の良否の指標(以下「評価値」という)Sを算定する。 The control device 12 is configured to include a processing circuit such as a CPU (Central Processing Unit), and centrally controls each element of the conversation evaluation device 100. Specifically, the control device 12 analyzes the voice signal X1 generated by the sound collecting device 22 and the voice signal X2 generated by the sound collecting device 24 to evaluate the conversation between the user U1 and the user U2. To do. The control device 12 of the first embodiment calculates an index (hereinafter, referred to as “evaluation value”) S of impression of the response of the user U2 to the utterance of the user U1.

表示装置16(例えば液晶表示パネル)は、制御装置12による制御のもとで各種の画像を表示する。例えば、利用者U1と利用者U2との会話の評価結果(評価値S)が表示装置16に表示される。入力装置18は、会話評価装置100に対する利用者U(例えば利用者U1や利用者U2)からの指示を受付ける。例えば利用者U(U1,U2)が操作する複数の操作子や、表示装置16の表示面に対する接触を検知するタッチパネルが入力装置18として好適に利用される。 The display device 16 (for example, a liquid crystal display panel) displays various images under the control of the control device 12. For example, the evaluation result (evaluation value S) of the conversation between the users U1 and U2 is displayed on the display device 16. The input device 18 receives an instruction from the user U (for example, the user U1 or the user U2) to the conversation evaluation device 100. For example, a plurality of operators operated by the user U (U1, U2) and a touch panel that detects contact with the display surface of the display device 16 are preferably used as the input device 18.

記憶装置14は、制御装置12が実行するプログラムや制御装置12が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置14として任意に採用され得る。第1実施形態の制御装置12は、記憶装置14に記憶されたプログラムを実行することで、利用者U1と利用者U2との会話を評価するための複数の機能(特徴取得部32,情報生成部34,会話評価部36)を実現する。なお、制御装置12の機能を複数の装置に分散した構成や、制御装置12の機能の一部または全部を専用の電子回路が実現する構成も採用され得る。 The storage device 14 stores programs executed by the control device 12 and various data used by the control device 12. For example, a known recording medium such as a semiconductor recording medium or a magnetic recording medium, or a combination of a plurality of recording media may be arbitrarily adopted as the storage device 14. The control device 12 of the first embodiment executes a program stored in the storage device 14 to execute a plurality of functions for evaluating the conversation between the user U1 and the user U2 (feature acquisition unit 32, information generation). The unit 34 and the conversation evaluation unit 36) are realized. A configuration in which the functions of the control device 12 are distributed to a plurality of devices, or a configuration in which a dedicated electronic circuit realizes some or all of the functions of the control device 12 may be employed.

特徴取得部32は、利用者U1の音声V1の特徴量と利用者U2の音声V2の特徴量とを取得する。第1実施形態の特徴取得部32は、音声信号X1の解析により利用者U1の音声V1の特徴量を抽出し、音声信号X2の解析により利用者U2の音声V2の特徴量を抽出する。具体的には、音声V1および音声V2の各々について韻律に関する特徴量が抽出される。韻律は、受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記のみからでは把握できない性質を意味する。 The characteristic acquisition unit 32 acquires the characteristic amount of the voice V1 of the user U1 and the characteristic amount of the voice V2 of the user U2. The feature acquisition unit 32 of the first embodiment extracts the feature amount of the voice V1 of the user U1 by analyzing the voice signal X1, and extracts the feature amount of the voice V2 of the user U2 by analyzing the voice signal X2. Specifically, the prosodic feature amount is extracted for each of the voice V1 and the voice V2. Prosody is a linguistic and phonetic characteristic that can be perceived by a listener, and means a property that cannot be understood only from general notation of language.

第1実施形態の特徴取得部32は、利用者U1の音声V1の音高P1と利用者U2の音声V2の音高P2とを特徴量として抽出する。例えば、特徴取得部32は、音声信号X1の発話区間内の平均的な音高P1と音声信号X2の発話区間内の平均的な音高P2とを抽出する。発話区間は、発話が継続する区間(一連の発話の始点から終点までの区間)である。音高P1および音高P2の抽出には公知の音声解析技術が任意に採用され得る。 The feature acquisition unit 32 of the first embodiment extracts the pitch P1 of the voice V1 of the user U1 and the pitch P2 of the voice V2 of the user U2 as feature amounts. For example, the feature acquisition unit 32 extracts the average pitch P1 in the utterance section of the voice signal X1 and the average pitch P2 in the utterance section of the voice signal X2. The utterance section is a section in which utterance continues (a section from a start point to an end point of a series of utterances). A known voice analysis technique may be arbitrarily adopted to extract the pitch P1 and the pitch P2.

利用者U1が発話した音声V1の音高P1に対して特定の関係にある音高P2の音声V2で利用者U2が応答した場合に、利用者U1は、利用者U2の音声V2が心地良く安心感のある好印象な応答であると知覚する、という傾向がある。具体的には、利用者U1の音高P1に対して協和関係にある音高P2を利用者U2が発音した場合に、利用者U2の応答は良好な印象と感取される。また、利用者U2による応答の印象に特に大きく影響するのは、利用者U1による音声V1の発話区間のうち音声V2の発話区間の始点に近い末尾側の区間である。そこで、第1実施形態の特徴取得部32は、利用者U1の音声V1の発話区間のうち当該発話区間の末尾に位置する所定長(例えば180msec)の区間の音高P1を特定する。 When the user U2 responds with the voice V2 of the pitch P2 having a specific relationship to the pitch P1 of the voice V1 spoken by the user U1, the user U1 can comfortably hear the voice V2 of the user U2. There is a tendency to perceive that the response is safe and has a good impression. Specifically, when the user U2 pronounces a pitch P2 that is in a harmony relationship with the pitch P1 of the user U1, the response of the user U2 is perceived as a good impression. Further, the impression of the response by the user U2 is particularly greatly influenced by the end portion of the utterance section of the voice V1 by the user U1 near the start point of the utterance section of the voice V2. Therefore, the feature acquisition unit 32 of the first embodiment specifies the pitch P1 of a section of a predetermined length (for example, 180 msec) located at the end of the utterance section of the voice V1 of the user U1.

図1の情報生成部34は、利用者U1と利用者U2との会話について、特徴取得部32が抽出する特徴量とは別種の情報(以下「関連情報」という)Rを生成する。関連情報Rは、利用者U1と利用者U2との会話に関連する情報である。第1実施形態では、会話の時間的な状況を示す関連情報Rを例示する。具体的には、会話日時(例えば日付や時刻)と会話継続長(例えば会話開始からの経過時間)とを会話状況として示す関連情報Rを情報生成部34は生成する。例えば、情報生成部34は、計時回路(図示略)が計時する時刻を参照して会話日時および会話継続長を特定する。すなわち、例えば音声V1または音声V2における最新の発話区間の始点の日時が会話日時として特定され、音声V1または音声V2における最先の発話区間の開始時刻から現在時刻までの経過時間が会話継続長として特定される。 The information generation unit 34 in FIG. 1 generates information (hereinafter referred to as “related information”) R different from the feature amount extracted by the feature acquisition unit 32, regarding the conversation between the users U1 and U2. The related information R is information related to the conversation between the users U1 and U2. In the first embodiment, the related information R indicating the temporal situation of conversation is illustrated. Specifically, the information generation unit 34 generates related information R indicating the conversation date and time (for example, date and time) and the conversation duration (for example, elapsed time from the start of conversation) as the conversation situation. For example, the information generator 34 identifies the conversation date and time and the conversation duration by referring to the time measured by a timing circuit (not shown). That is, for example, the date and time of the start point of the latest utterance section in the voice V1 or voice V2 is specified as the conversation date and time, and the elapsed time from the start time of the earliest utterance section in the voice V1 or voice V2 to the current time is the conversation duration. Specified.

会話評価部36は、特徴取得部32が抽出した特徴量(音高P1,音高P2)と情報生成部34が生成した関連情報Rとに応じて利用者U1と利用者U2との会話を評価する。すなわち、会話評価部36は、音高P1および音高P2と関連情報Rとに応じた評価値Sを算定する。以上の説明から理解される通り、第1実施形態では、会話を構成する音声(V1,V2)自体の特徴量だけでなく特徴量以外の関連情報Rも会話の評価に加味される。会話評価部36が算定した評価値Sが表示装置16に表示される。 The conversation evaluation unit 36 conducts a conversation between the users U1 and U2 according to the feature amount (pitch P1, pitch P2) extracted by the feature acquisition unit 32 and the related information R generated by the information generation unit 34. evaluate. That is, the conversation evaluation unit 36 calculates the evaluation value S according to the pitch P1 and the pitch P2 and the related information R. As can be understood from the above description, in the first embodiment, not only the feature amount of the voice (V1, V2) forming the conversation but also the related information R other than the feature amount is taken into consideration in the conversation evaluation. The evaluation value S calculated by the conversation evaluation unit 36 is displayed on the display device 16.

前述の通り、利用者U1の音声V1の音高P1に対して協和関係にある音高P2の音声V2で利用者U2が応答した場合に利用者U1は良好な印象を感取するという傾向がある。以上の傾向を考慮して、第1実施形態の会話評価部36は、音高P1と音高P2との音高差ΔP(ΔP=|P1−P2|)に応じて評価値Sを算定する。具体的には、音高差ΔPが協和関係に近いほど評価値Sが大きい数値となるように会話評価部36は評価値Sを算定する。第1実施形態で例示する協和関係は、例えば周波数比が整数比に近い音程の関係(例えば完全一度,完全八度,完全五度,完全四度)である。 As described above, when the user U2 responds with the voice V2 of the pitch P2 that is in a harmony with the pitch P1 of the voice V1 of the user U1, the user U1 tends to feel a good impression. is there. In consideration of the above tendency, the conversation evaluation unit 36 of the first embodiment calculates the evaluation value S according to the pitch difference ΔP (ΔP=|P1-P2|) between the pitch P1 and the pitch P2. .. Specifically, the conversation evaluation unit 36 calculates the evaluation value S such that the evaluation value S has a larger value as the pitch difference ΔP is closer to the consonance relation. The consonance relationship illustrated in the first embodiment is, for example, a pitch relationship in which the frequency ratio is close to an integer ratio (for example, perfect once, perfect eighth, perfect fifth, and perfect fourth).

以上の例示の通り、第1実施形態の会話評価部36は、音高P1と音高P2とを評価値Sに反映させるほか、利用者U1と利用者U2との会話に関する関連情報Rも加味して評価値Sを算定する。関連情報R(会話日時,会話継続長)と評価値Sとの具体的な関係を以下に例示する。 As described above, the conversation evaluation unit 36 according to the first embodiment reflects the pitch P1 and the pitch P2 in the evaluation value S, and also includes the related information R regarding the conversation between the users U1 and U2. Then, the evaluation value S is calculated. A specific relationship between the related information R (conversation date and time, conversation duration) and the evaluation value S is illustrated below.

夜間や休日の会話は、親密な友人同士の会話である可能性が高いから、例えば平日の日中の会話(典型的には業務上の会話等)と比較して、利用者U1が利用者U2に好印象を感取する可能性が高いという傾向がある。以上の傾向を考慮して、関連情報Rで指定される会話日時が夜間や休日に該当する場合には、会話日時が平日の日中に該当する場合と比較して評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、会話日時が夜間や休日に該当する場合に所定値を評価値Sに加点する。 Since it is highly likely that conversations at night or on holidays are between intimate friends, compared to, for example, weekday daytime conversations (typically business conversations), user U1 U2 tends to have a good impression. In consideration of the above tendency, when the conversation date and time specified by the related information R corresponds to nighttime or holiday, the evaluation value S is larger than that when the conversation date and time corresponds to daytime on weekdays. As described above, the conversation evaluation unit 36 calculates the evaluation value S. For example, the conversation evaluation unit 36 adds a predetermined value to the evaluation value S when the conversation date/time corresponds to nighttime or holiday.

また、長時間にわたり会話が継続している場合には、相互に良好な印象を感取しながら利用者U1と利用者U2との会話が盛上がっている可能性が高い。以上の傾向を考慮して、関連情報Rで指定される会話継続長が長いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、会話継続長が所定の閾値を上回る場合に所定値を評価値Sに加点する。他方、会話が過度に長時間にわたる場合には、利用者U1および利用者U2の疲労により相互間の印象が悪化する可能性がある。以上の傾向を考慮すると、関連情報Rで指定される会話継続長が所定の閾値を上回る場合に評価値Sを減点することも可能である。なお、相異なる複数の閾値を利用することも可能である。例えば、第1閾値と第2閾値とを設定し(第1閾値<第2閾値)、会話継続長が第1閾値と第2閾値との間の数値である場合に評価値Sを加点する一方、会話継続長が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。 Further, when the conversation continues for a long time, there is a high possibility that the conversation between the user U1 and the user U2 will be lively, feeling the good impressions of each other. In consideration of the above tendency, the conversation evaluation unit 36 calculates the evaluation value S such that the evaluation value S becomes a larger value as the conversation continuation length designated by the related information R becomes longer. For example, the conversation evaluation unit 36 adds a predetermined value to the evaluation value S when the conversation duration exceeds a predetermined threshold. On the other hand, when the conversation lasts for an excessively long time, the mutual impression may be deteriorated due to the fatigue of the users U1 and U2. Considering the above tendency, it is possible to deduct the evaluation value S when the conversation duration designated by the related information R exceeds a predetermined threshold. It is also possible to use a plurality of different thresholds. For example, the first threshold value and the second threshold value are set (first threshold value<second threshold value), and when the conversation duration is a numerical value between the first threshold value and the second threshold value, the evaluation value S is added. It is assumed that the evaluation value S is deducted when the conversation duration is below the first threshold or above the second threshold. It is also possible to change the point addition value or the point deduction value for the evaluation value S step by step for each range with each threshold as the boundary.

図2は、第1実施形態の制御装置12が利用者U1と利用者U2との会話を評価する処理(以下「会話評価処理」という)のフローチャートである。例えば入力装置18に対する利用者U(U1,U2)からの指示や利用者Uによる発話の開始を契機として会話評価処理が開始される。 FIG. 2 is a flowchart of a process in which the control device 12 of the first embodiment evaluates a conversation between the users U1 and U2 (hereinafter referred to as "conversation evaluation process"). For example, the conversation evaluation process is started in response to an instruction from the user U (U1, U2) to the input device 18 or the start of the utterance by the user U.

図2の会話評価処理を開始すると、特徴取得部32は、音声信号X1および音声信号X2の解析により利用者U1の音声V1の音高P1と利用者U2の音声V2の音高P2とを順次に抽出する(SA1)。また、情報生成部34は、例えば計時回路が計時する時刻を参照して関連情報R(第1実施形態では会話日時および会話継続長)を生成する(SA2)。会話評価部36は、特徴取得部32が抽出した特徴量(音高P1,音高P2)と情報生成部34が生成した関連情報Rとに応じた評価値Sを算定する(SA3)。なお、特徴取得部32による特徴量の抽出(SA1)と情報生成部34による関連情報Rの生成(SA2)との先後は逆転され得る。 When the conversation evaluation process of FIG. 2 is started, the feature acquisition unit 32 sequentially analyzes the pitch P1 of the voice V1 of the user U1 and the pitch P2 of the voice V2 of the user U2 by analyzing the voice signal X1 and the voice signal X2. (SA1). Further, the information generating unit 34 generates the related information R (the conversation date and time and the conversation duration in the first embodiment) with reference to the time measured by the clock circuit, for example (SA2). The conversation evaluation unit 36 calculates an evaluation value S according to the feature amount (pitch P1, pitch P2) extracted by the feature acquisition unit 32 and the related information R generated by the information generation unit 34 (SA3). Note that the extraction of the characteristic amount by the characteristic acquisition unit 32 (SA1) and the generation of the related information R by the information generation unit 34 (SA2) can be reversed.

以上に例示した通り、第1実施形態では、会話を構成する音声V1および音声V2の特徴量に応じて利用者U1と利用者U2との間の会話を客観的に評価することが可能である。また、会話を構成する音声V1および音声V2の特徴量のほかに当該会話の関連情報Rも加味して会話が評価されるから、特徴量のみを評価結果に反映させる構成と比較して会話を適切に評価することが可能である。第1実施形態では特に、音声V1の音高P1と音声V2の音高P2との音高差ΔPに応じて会話が評価されるから、利用者U1の音声V1に対する利用者U2の音声V2の音程(すなわち音高差)という観点から、利用者U2による応答の印象の良否を客観的に評価することが可能である。 As illustrated above, in the first embodiment, it is possible to objectively evaluate the conversation between the users U1 and U2 according to the feature amounts of the voice V1 and the voice V2 that constitute the conversation. .. Further, the conversation is evaluated by considering the related information R of the conversation in addition to the feature amounts of the voice V1 and the voice V2 that make up the conversation. Therefore, the conversation is compared with the configuration in which only the feature amount is reflected in the evaluation result. It is possible to evaluate appropriately. Particularly in the first embodiment, since the conversation is evaluated according to the pitch difference ΔP between the pitch P1 of the voice V1 and the pitch P2 of the voice V2, the voice V2 of the user U2 with respect to the voice V1 of the user U1 From the viewpoint of pitch (that is, pitch difference), it is possible to objectively evaluate the quality of the impression of the response by the user U2.

<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
<Second Embodiment>
A second embodiment of the present invention will be described. It should be noted that in each of the following exemplary embodiments, the elements having the same functions and functions as those in the first embodiment are assigned the reference numerals used in the description of the first embodiment, and the detailed description thereof will be appropriately omitted.

図3は、第2実施形態の会話評価装置100の構成図である。図3に例示される通り、第2実施形態の会話評価装置100の記憶装置14は、利用者Uの組合せ毎に履歴情報Hを記憶する。履歴情報Hは、利用者U間の過去の会話の履歴(会話履歴)に関する情報である。具体的には、第2実施形態の履歴情報Hは、利用者U間で過去に実施された会話の頻度(以下「会話頻度」という)と利用者U間での最初の会話からの経過時間(以下「関係期間」という)とを指定する。会話頻度は、所定長の期間(例えば1ヶ月間)内における会話の回数を意味する。利用者U間の会話毎に関連情報Rの会話頻度は更新される。会話頻度や関係期間は、利用者U間の親密度の指標とも換言され得る。 FIG. 3 is a configuration diagram of the conversation evaluation device 100 according to the second embodiment. As illustrated in FIG. 3, the storage device 14 of the conversation evaluation device 100 according to the second embodiment stores the history information H for each combination of the users U. The history information H is information relating to the history of past conversations (conversation history) between the users U. Specifically, the history information H of the second embodiment is the frequency of conversations conducted in the past between the users U (hereinafter referred to as “conversation frequency”) and the elapsed time from the first conversation between the users U. (Hereinafter referred to as “relationship period”). The conversation frequency means the number of conversations within a predetermined length of time (for example, one month). The conversation frequency of the related information R is updated for each conversation between the users U. The conversation frequency and the related period can be paraphrased as an index of the degree of intimacy between the users U.

第2実施形態の情報生成部34は、記憶装置14に記憶された履歴情報Hを参照して関連情報Rを生成する。例えば、利用者U1および利用者U2は、入力装置18を適宜に操作することで自身の識別情報を会話評価装置100に指示する。情報生成部34は、識別情報が示す利用者U1と利用者U2との間の履歴情報Hを記憶装置14から検索し、当該履歴情報Hで指定された会話頻度と関係期間を含む関連情報Rを生成する。なお、特徴取得部32が音声V1の音高P1と音声V2の音高P2とを抽出する動作は第1実施形態と同様である。 The information generator 34 of the second embodiment generates the related information R by referring to the history information H stored in the storage device 14. For example, the user U1 and the user U2 instruct the conversation evaluation device 100 about their own identification information by appropriately operating the input device 18. The information generation unit 34 searches the storage device 14 for the history information H between the users U1 and U2 indicated by the identification information, and the related information R including the conversation frequency and the related period designated by the history information H. To generate. The operation of the feature acquisition unit 32 to extract the pitch P1 of the voice V1 and the pitch P2 of the voice V2 is the same as in the first embodiment.

会話頻度が高い場合には、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される会話頻度が高いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、会話頻度が所定の閾値を上回る場合に所定値を評価値Sに加点する。なお、相異なる複数の閾値を利用することも可能である。例えば、会話頻度が第1閾値と第2閾値(第1閾値<第2閾値)との間の数値である場合に評価値Sを加点する一方、会話頻度が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。 When the conversation frequency is high, the user U1 and the user U2 have a good relationship, and there is a high possibility that they are talking while maintaining a good impression of each other. In consideration of the above tendency, the conversation evaluation unit 36 calculates the evaluation value S so that the evaluation value S becomes a larger value as the conversation frequency designated by the related information R becomes higher. For example, the conversation evaluation unit 36 adds a predetermined value to the evaluation value S when the conversation frequency exceeds a predetermined threshold. It is also possible to use a plurality of different thresholds. For example, when the conversation frequency is a numerical value between the first threshold value and the second threshold value (first threshold value<second threshold value), the evaluation value S is added, while when the conversation frequency is less than the first threshold value or the second threshold value. It is assumed that the evaluation value S is deducted when the threshold value is exceeded. It is also possible to change the point addition value or the point deduction value for the evaluation value S step by step for each range with each threshold as the boundary.

また、最初の会話からの関係期間が長い場合にも同様に、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される関係期間が長いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、関係期間が所定の閾値を上回る場合に所定値を評価値Sに加点する。なお、相異なる複数の閾値を利用することも可能である。例えば、関係期間が第1閾値と第2閾値(第1閾値<第2閾値)との間の数値である場合に評価値Sを加点する一方、関係期間が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。 Also, when the relationship period from the first conversation is long, similarly, the user U1 and the user U2 have a good relationship, and there is a high possibility that they are talking while maintaining a good impression with each other. In consideration of the above tendency, the conversation evaluation unit 36 calculates the evaluation value S such that the evaluation value S becomes a larger numerical value as the relationship period designated by the related information R is longer. For example, the conversation evaluation unit 36 adds a predetermined value to the evaluation value S when the relationship period exceeds a predetermined threshold value. It is also possible to use a plurality of different thresholds. For example, the evaluation value S is added when the relationship period is a numerical value between the first threshold value and the second threshold value (first threshold value<second threshold value), while the relationship period is less than the first threshold value or the second threshold value. It is assumed that the evaluation value S is deducted when the threshold value is exceeded. It is also possible to change the point addition value or the point deduction value for the evaluation value S step by step for each range with each threshold as the boundary.

以上に例示した通り、第2実施形態においても、会話を構成する音声V1および音声V2の特徴量のほかに当該会話の関連情報Rも加味して会話が評価される。したがって、第1実施形態と同様に、特徴量のみを評価に反映させる構成と比較して会話を適切に評価することが可能である。第2実施形態では特に、利用者U間の会話履歴(例えば会話頻度や関係期間)が関連情報Rとして利用されるから、利用者U間の過去の会話の傾向を踏まえた適切な評価が実現される。 As described above, in the second embodiment as well, the conversation is evaluated in consideration of the related information R of the conversation in addition to the feature amounts of the voice V1 and the voice V2 forming the conversation. Therefore, as in the first embodiment, it is possible to appropriately evaluate the conversation as compared with the configuration in which only the feature amount is reflected in the evaluation. Particularly in the second embodiment, since the conversation history between the users U (for example, the conversation frequency and the related period) is used as the related information R, an appropriate evaluation based on the past tendency of conversation between the users U is realized. To be done.

なお、以上の説明では、入力装置18に対する操作で指示された識別情報を利用したが、利用者U1および利用者U2を特定する方法は任意である。例えば、音声信号X1に対する話者識別で利用者U1を特定するとともに音声信号X2に対する話者識別で利用者U2を特定し、利用者U1と利用者U2との間の履歴情報Hを検索することも可能である。利用者U1および利用者U2の話者識別には公知の認識技術が任意に採用され得る。 In the above description, the identification information instructed by the operation on the input device 18 is used, but the method of identifying the user U1 and the user U2 is arbitrary. For example, the user U1 is identified by the speaker identification for the voice signal X1, the user U2 is identified by the speaker identification for the voice signal X2, and the history information H between the users U1 and U2 is searched. Is also possible. A known recognition technique can be arbitrarily adopted for the speaker identification of the user U1 and the user U2.

<第3実施形態>
図4は、第3実施形態の会話評価装置100の構成図である。図4に例示される通り、第3実施形態の会話評価装置100の記憶装置14は、利用者Uの組合せ毎に話者情報Qを記憶する。話者情報Qは、利用者U間の関係を示す情報である。具体的には、第3実施形態の話者情報Qは、利用者U間の相互関係(友人,家族,知人,同僚等)と利用者U間の親密度とを指定する。相互関係および親密度は、具体的には入力装置18に対する利用者Uからの操作で指示され得るが、例えばSNS(Social Networking Service)に登録された情報から話者情報Qに反映させることも可能である。
<Third Embodiment>
FIG. 4 is a configuration diagram of the conversation evaluation device 100 according to the third embodiment. As illustrated in FIG. 4, the storage device 14 of the conversation evaluation device 100 of the third embodiment stores the speaker information Q for each combination of the users U. The speaker information Q is information indicating the relationship between the users U. Specifically, the speaker information Q of the third embodiment specifies the mutual relationship (friend, family, acquaintance, colleague, etc.) between the users U and the intimacy degree between the users U. The mutual relationship and familiarity can be specifically instructed by the operation of the user U on the input device 18, but can be reflected in the speaker information Q from information registered in, for example, SNS (Social Networking Service). Is.

第3実施形態の情報生成部34は、記憶装置14に記憶された話者情報Qを参照して関連情報Rを生成する。例えば、情報生成部34は、第2実施形態と同様に識別情報の入力や話者識別で特定された利用者U1と利用者U2と間の話者情報Qを記憶装置14から検索し、当該話者情報Qで指定された相互関係と親密度とを含む関連情報Rを生成する。なお、特徴取得部32が音声V1の音高P1と音声V2の音高P2とを抽出する動作は第1実施形態と同様である。 The information generator 34 of the third embodiment generates the related information R by referring to the speaker information Q stored in the storage device 14. For example, the information generation unit 34 searches the storage device 14 for the speaker information Q between the users U1 and U2 identified by the input of the identification information or the speaker identification as in the second embodiment, and The related information R including the mutual relationship and familiarity designated by the speaker information Q is generated. The operation of the feature acquisition unit 32 to extract the pitch P1 of the voice V1 and the pitch P2 of the voice V2 is the same as in the first embodiment.

相互関係が友人である場合には、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される相互関係が友人である場合には、相互関係が他の関係である場合と比較して評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。具体的には、会話評価部36は、利用者U1と利用者U2との相互関係が友人である場合に所定値を評価値Sに加点する。 When the mutual relationship is a friend, the user U1 and the user U2 have a good relationship, and there is a high possibility that they are talking while maintaining a good impression of each other. In consideration of the above tendency, when the mutual relationship specified by the related information R is a friend, the conversation is performed so that the evaluation value S becomes a larger numerical value than in the case where the mutual relationship is another relationship. The evaluation unit 36 calculates the evaluation value S. Specifically, the conversation evaluation unit 36 adds a predetermined value to the evaluation value S when the mutual relationship between the user U1 and the user U2 is a friend.

また、親密度が高い場合にも同様に、利用者U1と利用者U2とが良好な関係にあり、相互に良好な印象を維持しながら会話している可能性が高い。以上の傾向を考慮して、関連情報Rで指定される親密度が高いほど評価値Sが大きい数値となるように、会話評価部36は評価値Sを算定する。例えば、会話評価部36は、親密度が所定の閾値を上回る場合に所定値を評価値Sに加点する。なお、相異なる複数の閾値を利用することも可能である。例えば、親密度が第1閾値と第2閾値(第1閾値<第2閾値)との間の数値である場合に評価値Sを加点する一方、親密度が第1閾値を下回る場合または第2閾値を上回る場合には評価値Sを減点する構成が想定される。各閾値を境界とする範囲毎に評価値Sに対する加点値または減点値を段階的に変化させることも可能である。 Similarly, when the degree of intimacy is high, the user U1 and the user U2 also have a good relationship, and there is a high possibility that they are talking while maintaining a good impression of each other. In consideration of the above tendency, the conversation evaluation unit 36 calculates the evaluation value S such that the evaluation value S becomes a larger value as the degree of intimacy specified by the related information R becomes higher. For example, the conversation evaluation unit 36 adds a predetermined value to the evaluation value S when the degree of intimacy exceeds a predetermined threshold. It is also possible to use a plurality of different thresholds. For example, when the degree of intimacy is a numerical value between the first threshold value and the second threshold value (first threshold value<second threshold value), the evaluation value S is added, while when the intimacy degree is less than the first threshold value or the second threshold value, It is assumed that the evaluation value S is deducted when the threshold value is exceeded. It is also possible to change the point addition value or the point deduction value for the evaluation value S step by step for each range with each threshold as the boundary.

以上に例示した通り、第3実施形態においても、会話を構成する音声V1および音声V2の特徴量のほかに当該会話の関連情報Rも加味して会話が評価される。したがって、第1実施形態と同様に、特徴量のみを評価に反映させる構成と比較して会話を適切に評価することが可能である。第3実施形態では特に、利用者U間の話者情報Q(例えば相互関係や親密度)が関連情報Rとして利用されるから、利用者U間の実際の関係を踏まえた適切な評価が実現される。 As illustrated above, in the third embodiment as well, the conversation is evaluated in consideration of the related information R of the conversation in addition to the feature amounts of the voice V1 and the voice V2 that form the conversation. Therefore, as in the first embodiment, it is possible to appropriately evaluate the conversation as compared with the configuration in which only the feature amount is reflected in the evaluation. In the third embodiment, in particular, the speaker information Q (for example, mutual relationship and intimacy) between the users U is used as the related information R, so that an appropriate evaluation based on the actual relationship between the users U is realized. To be done.

<第4実施形態>
図5は、第4実施形態の会話評価装置100の構成図である。図5に例示される通り、第4実施形態の会話評価装置100の記憶装置14は、利用者U毎に属性情報Aを記憶する。属性情報Aは、利用者Uの属性(特徴や性質)を示す情報である。利用者Uが発音する音声に依存する情報が属性情報Aとして特に好適である。第4実施形態の属性情報Aは、利用者Uの発音周波数を指定する。発音周波数は、利用者Uが発音する音声の平均的な音高(平均ピッチ)である。
<Fourth Embodiment>
FIG. 5: is a block diagram of the conversation evaluation apparatus 100 of 4th Embodiment. As illustrated in FIG. 5, the storage device 14 of the conversation evaluation device 100 according to the fourth embodiment stores the attribute information A for each user U. The attribute information A is information indicating the attribute (feature or property) of the user U. Information that depends on the voice pronounced by the user U is particularly suitable as the attribute information A. The attribute information A of the fourth embodiment specifies the sounding frequency of the user U. The sounding frequency is an average pitch (average pitch) of the sound produced by the user U.

第4実施形態の情報生成部34は、第2実施形態と同様に識別情報の入力や話者識別で特定された利用者U1および利用者U2の各々の属性情報Aを記憶装置14から検索し、各属性情報Aで指定された発音周波数を含む関連情報Rを生成する。すなわち、第4実施形態の関連情報Rは、評価対象の会話を実施する各利用者Uの情報であり、第1実施形態から第3実施形態で例示した関連情報Rと同様に、特徴取得部32が抽出する特徴量とは別個の種類の情報の一例である。 The information generation unit 34 of the fourth embodiment searches the storage device 14 for the attribute information A of each of the user U1 and the user U2 identified by the input of the identification information and the speaker identification as in the second embodiment. , And generates related information R including the sounding frequency specified by each attribute information A. That is, the related information R of the fourth embodiment is information of each user U who conducts the conversation of the evaluation target, and like the related information R illustrated in the first to third embodiments, the characteristic acquisition unit. 32 is an example of information of a type different from the feature amount extracted by 32.

第1実施形態から第3実施形態では、情報生成部34が生成した関連情報Rを会話評価部36による会話の評価に反映させる構成を例示したが、第4実施形態では、特徴取得部32による特徴量の抽出に関連情報Rが反映される。すなわち、第4実施形態の特徴取得部32は、情報生成部34が生成した関連情報Rに応じた条件で特徴量を抽出する。 In the first to third embodiments, the configuration in which the related information R generated by the information generation unit 34 is reflected in the conversation evaluation by the conversation evaluation unit 36 is illustrated, but in the fourth embodiment, the feature acquisition unit 32 is used. The related information R is reflected in the extraction of the feature amount. That is, the characteristic acquisition unit 32 of the fourth embodiment extracts the characteristic amount under the condition according to the related information R generated by the information generation unit 34.

具体的には、特徴取得部32は、収音装置22が生成する音声信号X1のうち、関連情報Rが指定する利用者U1の発音周波数を含む所定帯域内の音響成分を抽出し、抽出後の音響成分から音高P1を特定する。すなわち、利用者U1が平常的に発音する音域に限定して音高P1が特定される。同様に、特徴取得部32は、収音装置24が生成する音声信号X2のうち関連情報Rが指定する利用者U2の発音周波数を含む所定帯域内の音響成分から音高P2を特定する。なお、利用者Uの発音域を指定する属性情報Aを関連情報Rとして利用することも可能である。 Specifically, the feature acquisition unit 32 extracts, from the audio signal X1 generated by the sound collection device 22, an acoustic component within a predetermined band including the sounding frequency of the user U1 designated by the related information R, and after extraction. The pitch P1 is specified from the sound component of. That is, the pitch P1 is specified only in the tone range in which the user U1 normally sounds. Similarly, the feature acquisition unit 32 specifies the pitch P2 from the acoustic component within the predetermined band including the sounding frequency of the user U2 designated by the related information R in the sound signal X2 generated by the sound collection device 24. It is also possible to use the attribute information A that specifies the pronunciation range of the user U as the related information R.

会話評価部36は、以上の例示のように特徴取得部32が関連情報Rを使用して特定した音高P1および音高P2に応じて利用者U1と利用者U2との会話を評価する。具体的には、会話評価部36は、音高P1と音高P2との音高差ΔPに応じて評価値Sを算定する。第4実施形態における会話評価部36による評価には関連情報Rは加味されない。ただし、第1実施形態から第3実施形態の例示と同様に、第4実施形態でも会話評価部36による評価に関連情報Rを加味することは可能である。 The conversation evaluation unit 36 evaluates the conversation between the users U1 and U2 according to the pitch P1 and the pitch P2 identified by the feature acquisition unit 32 using the related information R as described above. Specifically, the conversation evaluation unit 36 calculates the evaluation value S according to the pitch difference ΔP between the pitch P1 and the pitch P2. The related information R is not added to the evaluation by the conversation evaluation unit 36 in the fourth embodiment. However, similarly to the exemplification of the first to third embodiments, it is possible to add the related information R to the evaluation by the conversation evaluation unit 36 also in the fourth embodiment.

以上に例示した通り、第4実施形態においても第1実施形態と同様に、会話を構成する音声V1および音声V2の特徴量に応じて利用者U1と利用者U2との間の会話を客観的に評価することが可能である。また、第4実施形態では、会話に関する関連情報Rに応じた条件で特徴量(音高P1,音高P2)が抽出されるから、特徴量の抽出に関連情報Rを利用しない構成と比較して特徴量を適切に抽出できるという利点がある。例えば、第4実施形態では、関連情報Rが指定する発音周波数に対応した周波数帯域に制限することで特徴量を高精度に抽出することが可能である。 As illustrated above, also in the fourth embodiment, as in the first embodiment, the conversation between the users U1 and U2 is objectively determined according to the feature amounts of the voice V1 and the voice V2 that constitute the conversation. It is possible to evaluate. In addition, in the fourth embodiment, the feature quantity (pitch P1, pitch P2) is extracted under the condition according to the related information R regarding the conversation, so that a comparison is made with the configuration in which the related information R is not used for extracting the feature quantity. Therefore, there is an advantage that the feature amount can be appropriately extracted. For example, in the fourth embodiment, it is possible to highly accurately extract the feature amount by limiting the frequency band corresponding to the sounding frequency designated by the related information R.

なお、以上の例示では、利用者Uの発音周波数を属性情報Aとして例示したが、属性情報Aの内容は以上の例示に限定されない。例えば、利用者Uの性別を指定する属性情報Aを利用することも可能である。特徴取得部32は、関連情報Rが指定する性別について想定される周波数帯域内で音高Pを特定する。例えば、特徴取得部32は、関連情報Rが指定する利用者U1の性別が女性である場合には、音声信号X1のうち女性に想定される高音域の音響成分から音高P1を抽出し、利用者U1の性別が男性である場合には、音声信号X1のうち男性に想定される低音域の音響成分から音高P1を抽出する。 In the above example, the pronunciation frequency of the user U is illustrated as the attribute information A, but the content of the attribute information A is not limited to the above example. For example, it is possible to use the attribute information A that specifies the gender of the user U. The feature acquisition unit 32 specifies the pitch P within the frequency band assumed for the sex designated by the related information R. For example, when the gender of the user U1 designated by the related information R is female, the feature acquisition unit 32 extracts the pitch P1 from the acoustic component of the high frequency range assumed for the female in the audio signal X1, When the gender of the user U1 is male, the pitch P1 is extracted from the acoustic component in the low range assumed by the male in the audio signal X1.

なお、利用者U1の音声V1と利用者U2の音声V2との音高差が1オクターブを上回る場合に、音高P1および音高P2の一方を他方に対して1オクターブの整数倍だけ近付けることで両者間の音高差を1オクターブ以内に補正(以下「音高補正」という)する構成が好適である。利用者U1と利用者U2とで性別が相違する場合(すなわち音高差が大きい場合)には、音高補正の必要性が高いと推定される。以上の傾向を考慮すると、関連情報Rが指定する性別が利用者U1と利用者U2とで相違する場合には特徴取得部32が音高補正を実行し、利用者U1と利用者U2とで性別が共通する場合には特徴取得部32が音高補正を省略する構成も好適である。 When the pitch difference between the voice V1 of the user U1 and the voice V2 of the user U2 exceeds one octave, one of the pitch P1 and the pitch P2 is brought closer to the other by an integral multiple of one octave. Therefore, it is preferable that the pitch difference between the two is corrected within one octave (hereinafter referred to as "pitch correction"). When the sexes of the user U1 and the user U2 are different (that is, the pitch difference is large), it is estimated that the pitch correction is highly necessary. Considering the above tendency, when the genders specified by the related information R are different between the user U1 and the user U2, the feature acquisition unit 32 performs pitch correction, and the user U1 and the user U2. A configuration in which the feature acquisition unit 32 omits pitch correction when the genders are common is also suitable.

<第5実施形態>
第5実施形態の情報生成部34は、第3実施形態と同様に、記憶装置14に記憶された話者情報Qを参照することで、利用者U1と利用者U2との間の親密度を指定する関連情報Rを生成する。特徴取得部32は、第4実施形態と同様に、情報生成部34が生成した関連情報Rに応じた条件で利用者U1の音声V1および利用者U2の音声V2の各々の特徴量(音高P1,音高P2)を抽出する。具体的には、特徴取得部32は、関連情報Rが指定する親密度に応じた頻度で特徴量を抽出する。
<Fifth Embodiment>
Like the third embodiment, the information generation unit 34 of the fifth embodiment refers to the speaker information Q stored in the storage device 14 to determine the intimacy degree between the user U1 and the user U2. The related information R designated is generated. Similar to the fourth embodiment, the characteristic acquisition unit 32, under the condition according to the related information R generated by the information generation unit 34, each characteristic amount (pitch of the voice V1 of the user U1 and the voice V2 of the user U2). P1 and pitch P2) are extracted. Specifically, the characteristic acquisition unit 32 extracts the characteristic amount at a frequency according to the degree of intimacy specified by the related information R.

例えば親密度が高い場合には、利用者U1と利用者U2とが良好な関係にあるから、評価値Sは比較的に大きい数値になると予想される。親密度が低い場合には、評価値Sの大小の予想は困難である。したがって、親密度が高い場合には頻繁に会話を評価する必要性は低く、親密度が低い場合には頻繁に会話を評価する必要がある、という傾向が想定される。以上の傾向を考慮して、第5実施形態の特徴取得部32は、関連情報Rで指定される親密度が高いほど、特徴量(音高P1,音高P2)の抽出の頻度を低下させる。 For example, when the degree of intimacy is high, since the user U1 and the user U2 have a good relationship, the evaluation value S is expected to be a relatively large numerical value. When the degree of intimacy is low, it is difficult to predict the magnitude of the evaluation value S. Therefore, it is assumed that there is a low need for frequent conversation evaluation when the degree of intimacy is high, and a frequent need for evaluating the conversation when the degree of intimacy is low. In consideration of the above tendency, the feature acquisition unit 32 of the fifth embodiment lowers the frequency of extracting the feature amount (pitch P1, pitch P2) as the degree of intimacy specified by the related information R is higher. ..

具体的には、特徴取得部32は、親密度が所定の閾値を上回る場合に、親密度が閾値を下回る場合と比較して低い頻度で特徴量を抽出する。例えば、親密度が閾値を下回る場合には、音声V1および音声V2の相前後する発話区間の1組毎に(すなわち、利用者U1による発話と利用者U2による応答との組毎に1回の頻度で)音高P1および音高P2が抽出される。他方、親密度が閾値を上回る場合には、音声V1および音声V2の発話区間の複数組毎に(すなわち、利用者U1による発話と利用者U2による応答との複数回毎に1回の頻度で)音高P1および音高P2が抽出される。会話評価部36による会話の評価は特徴取得部32による特徴量の抽出毎に実行されるから、関連情報Rで指定される親密度が高いほど、会話評価部36による評価の頻度(さらには表示装置16に表示される評価値Sの更新の頻度)は低下する。なお、相異なる複数の閾値を利用することも可能である。例えば、複数の閾値の各々を境界とする範囲毎に頻度を設定し、複数の範囲のうち親密度が属する範囲に対応した頻度で特徴取得部32が特徴量を抽出する構成が想定される。 Specifically, the feature acquisition unit 32 extracts the feature amount at a lower frequency when the degree of intimacy exceeds a predetermined threshold than when the degree of intimacy falls below the threshold. For example, when the degree of intimacy is lower than the threshold value, it is set for each set of the speech sections of the voice V1 and the voice V2 that follow each other (that is, once for each set of the utterance by the user U1 and the response by the user U2. Pitch P1 and pitch P2 are extracted (in frequency). On the other hand, when the degree of intimacy exceeds the threshold value, the frequency is once for each of a plurality of sets of speech sections of the voice V1 and the voice V2 (that is, once for a plurality of times of the utterance by the user U1 and the response by the user U2. ) The pitch P1 and the pitch P2 are extracted. Since the evaluation of the conversation by the conversation evaluation unit 36 is performed every time the feature amount is extracted by the feature acquisition unit 32, the higher the degree of intimacy specified by the related information R, the more frequently the conversation evaluation unit 36 evaluates the frequency (and further the display). The frequency of updating the evaluation value S displayed on the device 16 decreases. It is also possible to use a plurality of different thresholds. For example, a configuration in which a frequency is set for each range having each of a plurality of threshold values as boundaries and the feature acquisition unit 32 extracts the feature amount at a frequency corresponding to a range to which the intimacy degree belongs among the plurality of ranges is assumed.

以上に例示した通り、第5実施形態においても第1実施形態と同様に、会話を構成する音声V1および音声V2の特徴量に応じて利用者U1と利用者U2との間の会話を客観的に評価することが可能である。また、第5実施形態では、関連情報Rに応じた条件で特徴量(音高P1,音高P2)が抽出されるから、第4実施形態と同様に、特徴量の抽出に関連情報Rを利用しない構成と比較して特徴量を適切に抽出できるという利点がある。例えば第5実施形態では、特徴量の抽出の頻度が関連情報Rに応じて制御されるから、特徴量の抽出に関連情報Rを利用しない構成と比較して、特徴取得部32による特徴量の抽出と会話評価部36による会話の評価とに必要な演算量を削減することが可能である。 As illustrated above, also in the fifth embodiment, similar to the first embodiment, the conversation between the user U1 and the user U2 is objectively objective according to the feature amounts of the voice V1 and the voice V2 forming the conversation. It is possible to evaluate. Further, in the fifth embodiment, since the feature quantity (pitch P1, pitch P2) is extracted under the condition according to the related information R, the related information R is extracted in the extraction of the feature quantity as in the fourth embodiment. There is an advantage that the feature amount can be appropriately extracted as compared with the configuration that is not used. For example, in the fifth embodiment, the frequency of extraction of the feature quantity is controlled according to the related information R, so that the feature quantity obtained by the feature acquisition unit 32 can be compared with the configuration in which the related information R is not used to extract the feature quantity. It is possible to reduce the amount of calculation required for the extraction and the conversation evaluation by the conversation evaluation unit 36.

なお、第5実施形態の例示では、利用者U間の親密度に応じて特徴量の抽出条件(具体的には頻度)を制御したが、特徴量の抽出条件に反映させる関連情報Rの内容は以上の例示に限定されない。例えば、第1実施形態から第3実施形態で例示した任意の関連情報Rを、特徴量の抽出条件の制御に適用することが可能である。例えば、第2実施形態で例示した会話頻度や関係期間に応じて特徴量の抽出条件を制御する構成(例えば、会話頻度が高いほど、または、関係期間が長いほど、特徴量の抽出の頻度を低下させる構成)も想定される。 In the example of the fifth embodiment, the feature amount extraction condition (specifically, the frequency) is controlled according to the degree of intimacy between the users U, but the content of the related information R to be reflected in the feature amount extraction condition. Is not limited to the above examples. For example, it is possible to apply the arbitrary related information R exemplified in the first to third embodiments to the control of the feature quantity extraction condition. For example, a configuration in which the feature amount extraction condition is controlled according to the conversation frequency and the relation period illustrated in the second embodiment (for example, the higher the conversation frequency or the longer the relation period is, the more frequently the feature amount is extracted. It is also envisioned that the configuration).

また、会話評価部36による会話の評価に関連情報Rを加味する第1実施形態から第3実施形態の構成と、特徴取得部32による特徴量の抽出条件を関連情報Rに応じて制御する第4実施形態および第5実施形態の構成とを併合することも可能である。会話評価部36による会話の評価と特徴量の抽出条件の制御とには、相異なる種類の関連情報Rが好適に適用され得るが、関連情報Rを共通に適用することも可能である。例えば、関連情報Rが会話頻度を含む構成では、特徴取得部32による特徴量の抽出頻度を会話頻度に応じて制御するとともに、第2実施形態の例示のように会話評価部36による会話の評価にも会話頻度を流用することが可能である。 Further, the configuration of the first to third embodiments in which the related information R is added to the evaluation of the conversation by the conversation evaluation unit 36, and the feature quantity extraction condition by the characteristic acquisition unit 32 are controlled according to the related information R. It is also possible to combine the configurations of the fourth embodiment and the fifth embodiment. The different types of related information R can be preferably applied to the evaluation of the conversation and the control of the feature amount extraction condition by the conversation evaluation unit 36, but the related information R can also be commonly applied. For example, in the configuration in which the related information R includes the conversation frequency, the extraction frequency of the feature amount by the feature acquisition unit 32 is controlled according to the conversation frequency, and the conversation evaluation unit 36 evaluates the conversation as illustrated in the second embodiment. It is also possible to use the conversation frequency.

<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
<Modification>
Each aspect illustrated above can be variously modified. Specific modes of modification will be exemplified below. Two or more aspects arbitrarily selected from the following exemplifications can be appropriately merged within a range not inconsistent with each other.

(1)前述の各形態では、利用者U1が発音した音声V1と利用者U2が発音した音声V2とで構成される会話を評価したが、会話評価装置100が評価する音声は、利用者Uによる発声音(すなわち肉声)に限定されない。具体的には、音声V1および音声V2の一方を、公知の音声合成技術により生成された合成音声とすることも可能である。例えば、利用者U1が発音した音声V1と音声合成で生成された音声V2とで構成される会話の評価にも前述の各形態と同様の構成が採用され得る。すなわち、利用者U1の音声V1に対する音声認識により発話内容を解析することで、利用者U1の発話に対する適切な応答の音声V2が生成される。事前に収録された複数の音声を選択的に音声V2として選択することも可能である。また、音声合成で生成された音声V1と利用者U2が発音した音声V2とで構成される会話を評価する構成や、音声合成で生成された音声V1および音声V2で構成される会話を評価する構成も採用され得る。 (1) In each of the above-described modes, the conversation composed of the voice V1 pronounced by the user U1 and the voice V2 pronounced by the user U2 was evaluated, but the voice evaluated by the conversation evaluation device 100 is the user U. Is not limited to the vocal sound (that is, the real voice). Specifically, one of the voice V1 and the voice V2 can be a synthesized voice generated by a known voice synthesis technique. For example, the same configuration as each of the above-described embodiments may be adopted for the evaluation of the conversation composed of the voice V1 pronounced by the user U1 and the voice V2 generated by the voice synthesis. That is, by analyzing the utterance content by voice recognition of the voice U1 of the user U1, a voice V2 of an appropriate response to the utterance of the user U1 is generated. It is also possible to selectively select a plurality of prerecorded voices as the voice V2. Further, a configuration for evaluating a conversation composed of a voice V1 generated by voice synthesis and a voice V2 pronounced by the user U2, and a conversation composed of voice V1 and voice V2 generated by voice synthesis are evaluated. Configurations may also be employed.

前述のように音声合成で音声V1および音声V2を生成する構成では、収音装置22や収音装置24が省略される。また、合成音声を利用する構成では、音声の音響的な特性(例えば音高や音量)を指定する音声合成用のパラメータを音声V1や音声V2の特徴量として特徴取得部32が取得することも可能である。以上の構成では、音声信号X1の解析で音声V1の特徴量を抽出する処理や、音声信号X2の解析で音声V2の特徴量を抽出する処理は省略され得る。以上の説明から理解される通り、特徴取得部32は、会話を構成する音声(V1,V2)の特徴量を取得する要素として包括的に表現され、特徴抽出のための解析処理により特徴量を音声信号から抽出する要素のほか、抽出以外の任意の方法で特徴量を取得する要素も包含する。すなわち、特徴量の「抽出」は特徴量の「取得」の一例である。 As described above, in the configuration in which the voice V1 and the voice V2 are generated by voice synthesis, the sound collecting device 22 and the sound collecting device 24 are omitted. Further, in the configuration using the synthesized voice, the feature acquisition unit 32 may also acquire a voice synthesis parameter that specifies the acoustic characteristic of the voice (for example, pitch or volume) as the feature amount of the voice V1 or the voice V2. It is possible. With the above configuration, the process of extracting the feature amount of the voice V1 by analyzing the voice signal X1 and the process of extracting the feature amount of the voice V2 by analyzing the voice signal X2 can be omitted. As can be understood from the above description, the feature acquisition unit 32 is comprehensively expressed as an element that acquires the feature amount of the voice (V1, V2) forming the conversation, and the feature amount is obtained by the analysis process for feature extraction. In addition to elements extracted from the audio signal, elements that acquire the feature amount by any method other than extraction are also included. That is, “extraction” of the feature amount is an example of “acquisition” of the feature amount.

(2)前述の各形態では、会話評価部36が算定した評価値Sを表示装置16に表示させたが、会話評価部36による評価結果の形態は評価値Sに限定されない。例えば、評価値Sに応じた評価コメントを表示装置16に表示させる(評価値Sの表示の有無は不問)ことも可能である。また、評価結果の出力方法は表示に限定されない。例えば、評価値Sや評価コメントを音声で出力することも可能である。 (2) In each of the above-described embodiments, the evaluation value S calculated by the conversation evaluation unit 36 is displayed on the display device 16, but the form of the evaluation result by the conversation evaluation unit 36 is not limited to the evaluation value S. For example, it is possible to display an evaluation comment according to the evaluation value S on the display device 16 (whether or not the evaluation value S is displayed). Moreover, the output method of the evaluation result is not limited to the display. For example, it is possible to output the evaluation value S and the evaluation comment by voice.

(3)特徴量(音高P1,音高P2)と関連情報Rとに応じて評価値Sを算定する方法は、前述の各形態での例示に限定されない。例えば、特徴量に応じて会話を評価した数値と関連情報Rに応じて算定された数値とを適用した演算(例えば加重和)により評価値Sを算定することも可能である。また、例えば特徴量と評価値Sとの関係(例えば両者間の関係を規定する演算式の種類や係数)を関連情報Rに応じて変化させる構成でも、特徴量と関連情報Rとの双方に応じた評価値Sを算定することが可能である。 (3) The method of calculating the evaluation value S according to the characteristic amount (pitch P1, pitch P2) and the related information R is not limited to the above-described examples. For example, it is also possible to calculate the evaluation value S by a calculation (for example, a weighted sum) that applies a numerical value that evaluates conversation according to the feature amount and a numerical value that is calculated according to the related information R. Further, for example, even in a configuration in which the relationship between the feature amount and the evaluation value S (for example, the type and coefficient of the arithmetic expression that defines the relationship between the two) is changed according to the related information R, both the feature amount and the related information R are set. It is possible to calculate a corresponding evaluation value S.

(4)特徴取得部32が抽出する特徴量は音高(P1,P2)に限定されない。例えば、音声V1および音声V2の各々の音量を特徴量として特徴取得部32が抽出することも可能である。会話評価部36は、例えば、音声V1と音声V2との間の音量差に応じて会話を評価する。例えば、音声V1と音声V2との間の音量差が所定値に近いほど評価値Sが大きい数値となるように会話評価部36は評価値Sを算定する。 (4) The feature amount extracted by the feature acquisition unit 32 is not limited to the pitch (P1, P2). For example, the feature acquisition unit 32 can extract the volume of each of the voice V1 and the voice V2 as the feature amount. The conversation evaluation unit 36 evaluates the conversation, for example, according to the volume difference between the voice V1 and the voice V2. For example, the conversation evaluation unit 36 calculates the evaluation value S such that the evaluation value S becomes larger as the volume difference between the voice V1 and the voice V2 becomes closer to a predetermined value.

音声V1の発話区間と音声V2の発話区間との間隔(以下「発話間隔」という)を特徴取得部32が特徴量として抽出することも可能である。会話時の発話間隔が適切である場合には、会話の相手の音声が安心感のある好印象な発話であると知覚される、という傾向がある。以上の傾向を考慮すると、発話間隔が所定値に近いほど評価値Sが大きい数値となるように、会話評価部36が評価値Sを算定する構成が好適である。 It is also possible for the feature acquisition unit 32 to extract the interval between the utterance section of the voice V1 and the utterance section of the voice V2 (hereinafter referred to as the "utterance interval") as the feature amount. When the utterance interval during conversation is appropriate, there is a tendency that the voice of the other party in the conversation is perceived as a utterance that is comfortable and has a good impression. In consideration of the above tendency, it is preferable that the conversation evaluation unit 36 calculates the evaluation value S so that the evaluation value S becomes larger as the utterance interval is closer to the predetermined value.

(5)情報生成部34が関連情報Rを生成する方法は前述の各形態の例示に限定されない。具体的には、音声信号X1および音声信号X2を解析した結果から情報生成部34が関連情報Rを生成することも可能である。例えば、特徴取得部32が音声V1の音高P1と音声V2の音高P2とを特定した結果を利用して、情報生成部34が、利用者U1および利用者U2の各々の性別を推定し、第4実施形態と同様に、利用者U1および利用者U2の性別を指定した関連情報Rを生成することも可能である。 (5) The method by which the information generation unit 34 generates the related information R is not limited to the above-described exemplary embodiments. Specifically, the information generating unit 34 can generate the related information R from the result of analyzing the voice signal X1 and the voice signal X2. For example, the information generation unit 34 estimates the genders of the user U1 and the user U2 by using the result of the feature acquisition unit 32 specifying the pitch P1 of the voice V1 and the pitch P2 of the voice V2. Similarly to the fourth embodiment, it is possible to generate the related information R that specifies the sexes of the user U1 and the user U2.

(6)携帯電話機やスマートフォン等の端末装置と通信するサーバ装置(単体の装置または複数の装置で構成されるサーバシステム)で会話評価装置100を実現することも可能である。例えば、会話評価装置100は、音声信号X1と音声信号X2とを端末装置から受信し、前述の各形態と同様の方法で利用者U1と利用者U2との会話を評価した結果(例えば評価値S)を端末装置に送信する。 (6) It is also possible to realize the conversation evaluation device 100 by a server device (a single device or a server system configured by a plurality of devices) that communicates with a terminal device such as a mobile phone or a smartphone. For example, the conversation evaluation device 100 receives the voice signal X1 and the voice signal X2 from the terminal device, and evaluates the conversation between the user U1 and the user U2 by the same method as each of the above-described modes (for example, an evaluation value). S) is transmitted to the terminal device.

(7)前述の各形態で例示した会話評価装置100は、前述の通り、制御装置12とプログラムとの協働で実現され得る。例えば第1実施形態から第3実施形態に対応する第1態様のプログラムは、制御装置12等のコンピュータ(例えば単数または複数の処理回路)を、会話を構成する音声の特徴量を取得する特徴取得部32、会話について特徴量とは別種の関連情報Rを生成する情報生成部34、および、特徴量と関連情報Rとに応じて会話を評価する会話評価部36として機能させる。 (7) As described above, the conversation evaluation device 100 exemplified in each of the above-described modes can be realized by the cooperation of the control device 12 and the program. For example, the program of the first aspect corresponding to the first to third embodiments is a feature acquisition that causes a computer (for example, one or more processing circuits) such as the control device 12 to acquire a feature amount of voice that constitutes a conversation. The unit 32 functions as an information generation unit 34 that generates related information R of a type different from the feature amount and a conversation evaluation unit 36 that evaluates the conversation according to the feature amount and the related information R.

また、第4実施形態または第5実施形態に対応する第2態様のプログラムは、制御装置12等のコンピュータ(例えば単数または複数の処理回路)を、会話を構成する音声の特徴量を取得する特徴取得部32、会話について特徴量とは別種の関連情報Rを生成する情報生成部34、および、特徴量に応じて会話を評価する会話評価部36として機能させるプログラムであり、特徴取得部32は、関連情報Rに応じた条件で特徴量を取得する。 In addition, the program of the second aspect corresponding to the fourth embodiment or the fifth embodiment causes a computer (for example, a single or a plurality of processing circuits) such as the control device 12 to acquire the feature amount of voice that constitutes a conversation. The acquisition unit 32 is a program that functions as an information generation unit 34 that generates related information R of a type different from the feature amount for conversation, and a conversation evaluation unit 36 that evaluates the conversation according to the feature amount. , The characteristic amount is acquired under the condition according to the related information R.

以上に例示した各態様のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。 The program of each aspect illustrated above can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but any known recording medium such as a semiconductor recording medium or a magnetic recording medium is used. The recording medium of this type may be included. It is also possible to distribute the program to the computer in the form of distribution via a communication network.

(8)本発明の好適な態様は、前述の各形態で例示した会話評価装置100の動作方法(会話評価方法)としても特定され得る。第1態様に係る会話評価方法は、コンピュータ(単体のコンピュータまたは複数のコンピュータで構成されるシステム)が、会話を構成する音声の特徴量を取得し、会話について特徴量とは別種の関連情報Rを生成し、特徴量と関連情報Rとに応じて会話を評価する。第2態様に係る会話評価方法は、コンピュータが、会話を構成する音声の特徴量を取得し、会話について特徴量とは別種の関連情報Rを生成し、特徴量と関連情報Rとに応じて会話を評価する方法であって、特徴量の取得においては、関連情報Rに応じた条件で特徴量を取得する。 (8) The preferred aspect of the present invention can be specified as the operation method (conversation evaluation method) of the conversation evaluation device 100 exemplified in each of the above-described embodiments. In the conversation evaluation method according to the first aspect, a computer (a single computer or a system composed of a plurality of computers) acquires a feature amount of a voice forming a conversation, and the related information R of a type different from the feature amount regarding the conversation. Is generated and the conversation is evaluated according to the feature amount and the related information R. In the conversation evaluation method according to the second aspect, the computer acquires the characteristic amount of the voice that constitutes the conversation, generates the related information R of a type different from the characteristic amount of the conversation, and according to the characteristic amount and the related information R. This is a method of evaluating conversation, and in the acquisition of the characteristic amount, the characteristic amount is acquired under the condition according to the related information R.

100…会話評価装置、12…制御装置、14…記憶装置、16…表示装置、18…入力装置、22…収音装置、24…収音装置、32…特徴取得部、34…情報生成部、36…会話評価部。

100... Conversation evaluation device, 12... Control device, 14... Storage device, 16... Display device, 18... Input device, 22... Sound collection device, 24... Sound collection device, 32... Feature acquisition unit, 34... Information generation unit, 36... Conversation evaluation department.

Claims (5)

第1利用者と第2利用者との間の会話を構成する音声の音高を取得する特徴取得部と、
前記第1利用者と前記第2利用者との間で過去に実施された会話の頻度、および、前記第1利用者と前記第2利用者との間で過去に実施された複数の会話のうち最初の会話からの経過時間である関係期間、の少なくとも一方を含む関連情報を生成する情報生成部と、
前記音高と前記関連情報とに応じて前記会話を評価する会話評価部と
を具備する会話評価装置。
A characteristic acquisition unit that acquires the pitch of a voice that constitutes a conversation between the first user and the second user ;
The frequency of conversations conducted in the past between the first user and the second user, and the number of conversations conducted in the past between the first user and the second user. An information generation unit that generates related information including at least one of a relation period that is an elapsed time from the first conversation ,
A conversation evaluation device, comprising: a conversation evaluation unit that evaluates the conversation according to the pitch and the related information.
前記特徴取得部は、前記関連情報に応じた条件で前記音高を取得する
請求項1の会話評価装置。
The conversation evaluation device according to claim 1, wherein the feature acquisition unit acquires the pitch under a condition according to the related information.
前記特徴取得部は、前記会話を構成する第1音声および第2音声の各々の音高取得し、
前記会話評価部は、前記第1音声と前記第2音声との音高差に応じて前記会話を評価する
請求項1または請求項2の会話評価装置。
The characteristic acquisition unit acquires the pitch of each of the first audio and second audio constituting the conversation,
The conversation evaluation unit, conversation evaluation apparatus according to claim 1 or claim 2 for evaluating the conversation in accordance with pitch difference between the second audio as the first audio.
コンピュータを、
第1利用者と第2利用者との間の会話を構成する音声の音高を取得する特徴取得部、
前記第1利用者と前記第2利用者との間で過去に実施された会話の頻度、および、前記第1利用者と前記第2利用者との間で過去に実施された複数の会話のうち最初の会話からの経過時間である関係期間、の少なくとも一方を含む関連情報を生成する情報生成部、および、
前記音高と前記関連情報とに応じて前記会話を評価する会話評価部
として機能させるプログラム。
Computer,
A characteristic acquisition unit that acquires the pitch of a voice that constitutes a conversation between the first user and the second user ,
The frequency of conversations conducted in the past between the first user and the second user, and the number of conversations conducted in the past between the first user and the second user. An information generation unit that generates related information including at least one of a relation period that is an elapsed time from the first conversation , and
A program that functions as a conversation evaluation unit that evaluates the conversation according to the pitch and the related information.
第1利用者と第2利用者との間の会話を構成する音声の音高を取得し、 Acquiring the pitch of the voice that constitutes the conversation between the first user and the second user,
前記第1利用者と前記第2利用者との間で過去に実施された会話の頻度、および、前記第1利用者と前記第2利用者との間で過去に実施された複数の会話のうち最初の会話からの経過時間である関係期間、の少なくとも一方を含む関連情報を生成し、 The frequency of conversations conducted in the past between the first user and the second user, and the number of conversations conducted in the past between the first user and the second user. Generate relevant information including at least one of the relationship period, which is the elapsed time from the first conversation,
前記音高と前記関連情報とに応じて前記会話を評価する Evaluate the conversation according to the pitch and the related information
コンピュータにより実現される会話評価方法。 A conversation evaluation method implemented by a computer.
JP2016042271A 2016-03-04 2016-03-04 Conversation evaluation device, program, and conversation evaluation method Expired - Fee Related JP6746963B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016042271A JP6746963B2 (en) 2016-03-04 2016-03-04 Conversation evaluation device, program, and conversation evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016042271A JP6746963B2 (en) 2016-03-04 2016-03-04 Conversation evaluation device, program, and conversation evaluation method

Publications (2)

Publication Number Publication Date
JP2017156688A JP2017156688A (en) 2017-09-07
JP6746963B2 true JP6746963B2 (en) 2020-08-26

Family

ID=59809797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016042271A Expired - Fee Related JP6746963B2 (en) 2016-03-04 2016-03-04 Conversation evaluation device, program, and conversation evaluation method

Country Status (1)

Country Link
JP (1) JP6746963B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3219868B2 (en) * 1992-11-18 2001-10-15 日本放送協会 Speech pitch extraction device and pitch section automatic extraction device
SE0004221L (en) * 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Method and apparatus for speech analysis
JP2010054568A (en) * 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd Emotional identification device, method and program
JP5834449B2 (en) * 2010-04-22 2015-12-24 富士通株式会社 Utterance state detection device, utterance state detection program, and utterance state detection method
US8914285B2 (en) * 2012-07-17 2014-12-16 Nice-Systems Ltd Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative
JP5855290B2 (en) * 2014-06-16 2016-02-09 パナソニックIpマネジメント株式会社 Service evaluation device, service evaluation system, and service evaluation method

Also Published As

Publication number Publication date
JP2017156688A (en) 2017-09-07

Similar Documents

Publication Publication Date Title
JP6755304B2 (en) Information processing device
CN104080024B (en) Volume leveller controller and control method and audio classifiers
US8484035B2 (en) Modification of voice waveforms to change social signaling
Rachman et al. DAVID: An open-source platform for real-time transformation of infra-segmental emotional cues in running speech
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
US10553240B2 (en) Conversation evaluation device and method
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
US11842721B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
KR100659212B1 (en) Language learning system and voice data providing method for language learning
JP2010014913A (en) Device and system for conversion of voice quality and for voice generation
JP2011186143A (en) Speech synthesizer, speech synthesis method for learning user&#39;s behavior, and program
US20100235169A1 (en) Speech differentiation
CN112349266A (en) Voice editing method and related equipment
Möller et al. Comparison of approaches for instrumentally predicting the quality of text-to-speech systems
CN114566187A (en) System, electronic device, and related method with post-session representation
CN109754816B (en) Voice data processing method and device
CN111837184A (en) Sound processing method, sound processing device, and program
JP2004021121A (en) Voice interaction controller unit
JP6746963B2 (en) Conversation evaluation device, program, and conversation evaluation method
JP3706112B2 (en) Speech synthesizer and computer program
Niebuhr et al. A digital “flat affect”? Popular speech compression codecs and their effects on emotional prosody
Jessen Forensic phonetics and the influence of speaking style on global measures of fundamental frequency
Mital Speech enhancement for automatic analysis of child-centered audio recordings
Lutsenko et al. Research on a voice changed by distortion
US20230114150A1 (en) Conversation engine and related methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200720

R151 Written notification of patent or utility model registration

Ref document number: 6746963

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees