JP7095414B2 - Speech processing program, speech processing method and speech processing device - Google Patents

Speech processing program, speech processing method and speech processing device Download PDF

Info

Publication number
JP7095414B2
JP7095414B2 JP2018107778A JP2018107778A JP7095414B2 JP 7095414 B2 JP7095414 B2 JP 7095414B2 JP 2018107778 A JP2018107778 A JP 2018107778A JP 2018107778 A JP2018107778 A JP 2018107778A JP 7095414 B2 JP7095414 B2 JP 7095414B2
Authority
JP
Japan
Prior art keywords
conversation
time
voice
voice information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018107778A
Other languages
Japanese (ja)
Other versions
JP2019211633A (en
Inventor
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018107778A priority Critical patent/JP7095414B2/en
Publication of JP2019211633A publication Critical patent/JP2019211633A/en
Application granted granted Critical
Publication of JP7095414B2 publication Critical patent/JP7095414B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声処理プログラム等に関する。 The present invention relates to a voice processing program and the like.

近年、コールセンターでは、オペレータと顧客との会話を録音し、録音した会話の情報を蓄積している。蓄積された会話の情報は、サービス向上のために、オペレータへのフィードバック等に用いられる。 In recent years, call centers have recorded conversations between operators and customers and accumulated information on the recorded conversations. The accumulated conversation information is used for feedback to the operator in order to improve the service.

なお、従来技術には、通話の開始時刻から終了時刻までの音声情報を基にして、通話が迷惑電話であるか否かを判定する技術がある。この従来技術では、通話全体の時間、通話全体の音声区間の割合、ストレス評価値、所定のキーワードを検出した回数を、予め学習しておいたモデルに入力することで、迷惑電話らしさを特定している。 In the prior art, there is a technique for determining whether or not a call is a nuisance call based on voice information from the start time to the end time of the call. In this conventional technique, the time of the entire call, the ratio of the voice section of the entire call, the stress evaluation value, and the number of times a predetermined keyword is detected are input to the model learned in advance to identify the nuisance call. ing.

特開2005-12831号公報Japanese Unexamined Patent Publication No. 2005-12831 国際公開第2008/032787号International Publication No. 2008/032787 国際公開第2014/069122号International Publication No. 2014/069122

しかしながら、上述した従来技術では、会話状況が、通常の会話状況か異常な会話状況かを判定することができないという問題がある。 However, in the above-mentioned conventional technique, there is a problem that it is not possible to determine whether the conversation situation is a normal conversation situation or an abnormal conversation situation.

1つの側面では、本発明は、会話状況が、通常の会話状況か異常な会話状況であるかを判定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a voice processing program, a voice processing method, and a voice processing apparatus capable of determining whether a conversation situation is a normal conversation situation or an abnormal conversation situation. ..

第1の案では、コンピュータに次の処理を実行させる。コンピュータは、音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻を設定し、開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出する。コンピュータは、会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、設定時刻毎に算出した複数の特徴量を入力することで、複数の特徴量に対応するモデルの複数の出力値を設定時刻毎に算出する。コンピュータは、複数の出力値を基にして、判定対象とする会話が異常な会話状況であるか否かを判定する。 In the first plan, the computer is made to perform the following processing. The computer sets a set time set for each predetermined time interval from the start time of the conversation to be judged included in the voice information, and multiple feature quantities are selected from a plurality of voice information from the start time to each set time. calculate. The computer supports multiple features by inputting multiple features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation. Calculate multiple output values of the model for each set time. The computer determines whether or not the conversation to be determined is an abnormal conversation situation based on a plurality of output values.

会話状況が、通常の会話状況か異常な会話状況かを判定することが可能となる。 It is possible to determine whether the conversation situation is a normal conversation situation or an abnormal conversation situation.

図1は、本実施例1に係る音声処理装置の処理を説明するための図である。FIG. 1 is a diagram for explaining the processing of the voice processing device according to the first embodiment. 図2は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。FIG. 2 is a functional block diagram showing a configuration of the voice processing device according to the first embodiment. 図3は、本実施例1に係るモデル情報を説明するための概略図である。FIG. 3 is a schematic diagram for explaining the model information according to the first embodiment. 図4は、本実施例1に係る出力値蓄積バッファのデータ構造の一例を示す図である。FIG. 4 is a diagram showing an example of the data structure of the output value storage buffer according to the first embodiment. 図5は、本実施例1に係る特徴量算出部の構成を示す機能ブロック図である。FIG. 5 is a functional block diagram showing the configuration of the feature amount calculation unit according to the first embodiment. 図6は、本実施例1に係るピッチ・パワー蓄積部のデータ構造の一例を示す図である。FIG. 6 is a diagram showing an example of the data structure of the pitch power storage unit according to the first embodiment. 図7は、本実施例2に係る検出回数情報のデータ構造の一例を示す図である。FIG. 7 is a diagram showing an example of a data structure of detection frequency information according to the second embodiment. 図8は、判定処理のバリエーション1を説明するための図である。FIG. 8 is a diagram for explaining variation 1 of the determination process. 図9は、判定処理のバリエーション2を説明するための図である。FIG. 9 is a diagram for explaining variation 2 of the determination process. 図10は、判定処理のバリエーション3を説明するための図である。FIG. 10 is a diagram for explaining variation 3 of the determination process. 図11は、判定処理のバリエーション4を説明するための図である。FIG. 11 is a diagram for explaining variation 4 of the determination process. 図12は、本実施例1に係る音声処理装置の処理手順を示すフローチャート(1)である。FIG. 12 is a flowchart (1) showing a processing procedure of the voice processing apparatus according to the first embodiment. 図13は、本実施例1に係る音声処理装置の処理手順を示すフローチャート(2)である。FIG. 13 is a flowchart (2) showing a processing procedure of the voice processing apparatus according to the first embodiment. 図14は、本実施例1に係る音声処理装置の効果を説明するための図である。FIG. 14 is a diagram for explaining the effect of the voice processing device according to the first embodiment. 図15は、会話時間管理部のその他の処理を説明するための図である。FIG. 15 is a diagram for explaining other processes of the conversation time management unit. 図16は、参考技術2の処理を説明するための図である。FIG. 16 is a diagram for explaining the process of Reference Technique 2. 図17は、本実施例2に係る音声処理装置の処理を説明するための図である。FIG. 17 is a diagram for explaining the processing of the voice processing device according to the second embodiment. 図18は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。FIG. 18 is a functional block diagram showing the configuration of the voice processing device according to the second embodiment. 図19は、本実施例2に係る出力値蓄積バッファのデータ構造の一例を示す図である。FIG. 19 is a diagram showing an example of the data structure of the output value storage buffer according to the second embodiment. 図20は、本実施例2に係る特徴量算出部の構成を示す機能ブロック図である。FIG. 20 is a functional block diagram showing the configuration of the feature amount calculation unit according to the second embodiment. 図21は、本実施例2に係る検出回数情報のデータ構造の一例を示す図である。FIG. 21 is a diagram showing an example of a data structure of detection frequency information according to the second embodiment. 図22は、本実施例2に係る音声処理装置の処理手順を示すフローチャート(1)である。FIG. 22 is a flowchart (1) showing a processing procedure of the voice processing apparatus according to the second embodiment. 図23は、本実施例2に係る音声処理装置の処理手順を示すフローチャート(2)である。FIG. 23 is a flowchart (2) showing a processing procedure of the voice processing apparatus according to the second embodiment. 図24Aは、第1の軌跡を説明するための図である。FIG. 24A is a diagram for explaining the first locus. 図24Bは、第2の軌跡を説明するための図である。FIG. 24B is a diagram for explaining the second locus. 図24Cは、第3の軌跡を説明するための図である。FIG. 24C is a diagram for explaining the third locus. 図25は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。FIG. 25 is a diagram showing an example of a hardware configuration of a computer that realizes a function similar to that of a voice processing device.

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Hereinafter, examples of the voice processing program, the voice processing method, and the voice processing apparatus disclosed in the present application will be described in detail with reference to the drawings. The present invention is not limited to this embodiment.

本実施例1に係る音声処理装置の説明を行う前に、オペレータと顧客との会話が異常な会話状況であるか否かを判定する参考技術1について説明する。この参考技術1は、従来技術ではない。 Before explaining the voice processing device according to the first embodiment, the reference technique 1 for determining whether or not the conversation between the operator and the customer is an abnormal conversation situation will be described. This reference technique 1 is not a conventional technique.

参考技術1は、会話の開始時刻から終了時刻までの音声情報(会話全体の音声情報)を基にして、会話状況が通常の会話状況であるか、異常な会話状況であるかを判定する。ここで「異常な会話状況」とは、顧客が不満を感じたり、怒り出したり、脅迫したりするなど、「通常でない状況」を含むものである。 The reference technique 1 determines whether the conversation situation is a normal conversation situation or an abnormal conversation situation based on the voice information (voice information of the entire conversation) from the start time to the end time of the conversation. Here, the "abnormal conversation situation" includes an "unusual situation" in which the customer feels dissatisfied, angry, or threatens.

この参考技術1は、会話全体の時間、会話全体の音声区間の割合、ストレス評価値、所定のキーワードを検出した回数を、予め学習しておいたモデルに入力することで、異常な会話状況らしさを示す出力値を特定する。参考技術1は、この出力値が閾値以上である場合に、会話状況が異常な会話状況であると判定する。 This reference technique 1 seems to be an abnormal conversation situation by inputting the time of the whole conversation, the ratio of the voice section of the whole conversation, the stress evaluation value, and the number of times when a predetermined keyword is detected into the model learned in advance. Specify the output value that indicates. Reference Technique 1 determines that the conversation situation is an abnormal conversation situation when this output value is equal to or greater than the threshold value.

ここで、会話の終盤だけ顧客が怒り出した場合、あるいは会話中に顧客が不満を述べたが、オペレータが話術で鎮静化させた場合は「異常な会話状況」であると判定することが好ましい。しかし、参考技術1では、会話全体に対する評価値、分析結果を用いて、総合的に異常な会話状況であるかを判定しているため、会話の一部に異常な会話状況が含まれていても、全体としては、異常な会話状況らしさを示す出力値が大きくならず、会話状況が異常であると判定できない場合がある。 Here, if the customer gets angry only at the end of the conversation, or if the customer complains during the conversation, but the operator calms it down by speaking, it is preferable to judge that it is an "abnormal conversation situation". .. However, in Reference Technique 1, since it is determined whether or not the conversation is abnormal comprehensively by using the evaluation value and the analysis result for the entire conversation, the abnormal conversation situation is included in a part of the conversation. However, as a whole, the output value indicating the appearance of an abnormal conversation situation does not increase, and it may not be possible to determine that the conversation situation is abnormal.

次に、本実施例1に係る音声処理装置の処理の一例について説明する。音声処理装置は、異常な会話状況らしさを判定する「モデルを学習する処理」と、「異常な会話状況であるか否かを判定する処理」を行う。 Next, an example of processing of the voice processing device according to the first embodiment will be described. The voice processing device performs "a process of learning a model" for determining the appearance of an abnormal conversation situation and "a process of determining whether or not the conversation situation is abnormal".

音声処理装置が、モデルを学習する場合には、参考技術1と同様にして、会話全体の音声情報に対する評価値、分析結果を用いて、モデルを学習する。 When the voice processing device learns the model, the model is learned by using the evaluation values and the analysis results for the voice information of the entire conversation in the same manner as in Reference Technique 1.

続いて、音声処理装置が、異常な会話状況であるか否かを判定する場合には、会話の開始時刻から各設定時刻までの評価値、分析結果を、一定時間間隔でモデルに入力し、モデルの出力値を算出、蓄積する。音声処理装置は、蓄積された出力値から得られる軌跡を用いて、通常の会話状況か異常な会話状況かの判定を行う。 Subsequently, when the voice processing device determines whether or not the conversation is abnormal, the evaluation values and analysis results from the conversation start time to each set time are input to the model at regular time intervals. Calculate and accumulate the output value of the model. The voice processing device determines whether it is a normal conversation situation or an abnormal conversation situation by using the locus obtained from the accumulated output value.

図1は、本実施例1に係る音声処理装置の処理を説明するための図である。図1において、縦軸はモデルの出力値に対応するものであり、横軸は会話時間に対応するものである。出力値10aは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10bは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10cは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10dは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10eは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10fは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。 FIG. 1 is a diagram for explaining the processing of the voice processing device according to the first embodiment. In FIG. 1, the vertical axis corresponds to the output value of the model, and the horizontal axis corresponds to the conversation time. The output value 10a is an evaluation value of conversation in the section from time 0 to time t 1 , and an output value when the analysis result is input to the model. The output value 10b is an output value when the evaluation value and the analysis result of the conversation in the section from time 0 to time t 2 are input to the model. The output value 10c is an output value when the evaluation value and the analysis result of the conversation in the section from the time 0 to the time t3 are input to the model. The output value 10d is an output value when the evaluation value and the analysis result of the conversation in the section from the time 0 to the time t4 are input to the model. The output value 10e is an output value when the evaluation value and the analysis result of the conversation in the section from the time 0 to the time t5 are input to the model. The output value 10f is an output value when the evaluation value and the analysis result of the conversation in the section from the time 0 to the time t6 are input to the model.

出力値10gは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10hは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10iは、時刻0から時刻tまでの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10jは、時刻0から時刻t10までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値10kは、時刻0から時刻t11までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。 The output value 10g is an evaluation value of conversation in the section from time 0 to time t7 , and an output value when the analysis result is input to the model. The output value 10h is an evaluation value of conversation in the section from time 0 to time t8, and an output value when the analysis result is input to the model. The output value 10i is an output value when the evaluation value and the analysis result of the conversation in the section from time 0 to time t 9 are input to the model. The output value 10j is an evaluation value of conversation in the section from time 0 to time t10 , and an output value when the analysis result is input to the model. The output value 10k is an output value when the evaluation value and the analysis result of the conversation in the section from the time 0 to the time t 11 are input to the model.

音声処理装置は、各出力値10a~10kの軌跡を基にして、通常の会話状況か異常な会話状況かの判定を行う。これによって、会話の一部に異常な会話状況が含まれていていると、軌跡に変化を与えるため、会話状況が、通常の会話状況か異常な会話状況であるかを判定することができる。これに対して、上記の参考技術1では、会話全体の時間(時刻0~t11)の会話の評価値、分析結果をモデルに入力した出力値10kとの閾値比較により、通常の会話状況か異常な会話状況であるかを判定するため、会話の一部に異常な会話状況が含まれていても、特定できない。 The voice processing device determines whether it is a normal conversation situation or an abnormal conversation situation based on the loci of each output value 10a to 10k. As a result, if an abnormal conversation situation is included in a part of the conversation, the locus is changed, so that it is possible to determine whether the conversation situation is a normal conversation situation or an abnormal conversation situation. On the other hand, in the above reference technique 1, it is a normal conversation situation by comparing the evaluation value of the conversation during the entire conversation time (time 0 to t 11 ) and the output value 10k input to the model of the analysis result. In order to determine whether the conversation situation is abnormal, even if a part of the conversation contains an abnormal conversation situation, it cannot be specified.

図2は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。図2に示すように、この音声処理装置100は、通信部110、記憶部120、制御部130を有する。 FIG. 2 is a functional block diagram showing a configuration of the voice processing device according to the first embodiment. As shown in FIG. 2, the voice processing device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.

通信部110は、ネットワークを介して外部の装置とデータ通信を実行する処理部である。たとえば、通信部110は、顧客とオペレータとの会話を含む音声情報を収集するサーバ装置(図示略)から、音声情報を受信する。通信部110は、受信した音声情報を制御部130に出力する。通信部110は、通信装置の一例である。なお、本実施例1では一例として、音声情報の会話を顧客とオペレータとの会話とするがこれに限定されるものではなく、利用者間の会話であってもよい。 The communication unit 110 is a processing unit that executes data communication with an external device via a network. For example, the communication unit 110 receives voice information from a server device (not shown) that collects voice information including a conversation between a customer and an operator. The communication unit 110 outputs the received voice information to the control unit 130. The communication unit 110 is an example of a communication device. In the first embodiment, as an example, the conversation of voice information is a conversation between a customer and an operator, but the conversation is not limited to this, and a conversation between users may be used.

記憶部120は、音声バッファ120aと、モデル情報120bと、出力値蓄積バッファ120cとを有する。記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。 The storage unit 120 has a voice buffer 120a, model information 120b, and an output value storage buffer 120c. The storage unit 120 corresponds to a semiconductor memory element such as a RAM (Random Access Memory), a ROM (Read Only Memory), and a flash memory (Flash Memory), and a storage device such as an HDD (Hard Disk Drive).

音声バッファ120aは、顧客とオペレータとの会話の音声情報を記憶するバッファである。「モデルを学習する処理」を音声処理装置100が行う場合には、音声バッファ120aには、学習用の音声情報が蓄積される。これに対して、「会話状況を判定する処理」を音声処理装置100が行う場合には、音声バッファ120aには、判定対象となる音声情報が蓄積される。 The voice buffer 120a is a buffer for storing voice information of a conversation between a customer and an operator. When the voice processing device 100 performs the "process for learning the model", the voice information for learning is stored in the voice buffer 120a. On the other hand, when the voice processing device 100 performs the "processing for determining the conversation status", the voice information to be determined is accumulated in the voice buffer 120a.

モデル情報120bは、音声情報に含まれる会話が、異常な会話状況である度合いを示す出力値を出力するモデルの情報である。図3は、本実施例1に係るモデル情報を説明するための概略図である。図3に示すように、このモデル情報120bは、ニューラルネットワークの構造を有し、入力層20a、隠れ層20b、出力層20cを持つ。入力層20a、隠れ層20b、出力層20cは、複数のノードがエッジで結ばれる構造となっている。隠れ層20b、出力層20cは、活性化関数と呼ばれる関数とバイアス値とを持ち、エッジは、重みを持つ。 The model information 120b is information on a model that outputs an output value indicating the degree to which the conversation included in the voice information is an abnormal conversation situation. FIG. 3 is a schematic diagram for explaining the model information according to the first embodiment. As shown in FIG. 3, this model information 120b has a neural network structure, and has an input layer 20a, a hidden layer 20b, and an output layer 20c. The input layer 20a, the hidden layer 20b, and the output layer 20c have a structure in which a plurality of nodes are connected by edges. The hidden layer 20b and the output layer 20c have a function called an activation function and a bias value, and the edge has a weight.

入力層20aに含まれる各ノードに、音声情報の特徴量を入力すると、隠れ層20bを通って、出力層20cの各ノードから、会話が異常な会話状況である確率「Ot」と、会話が通常の会話状況である確率「On」とが出力される。 When the feature amount of voice information is input to each node included in the input layer 20a, the conversation is transmitted from each node of the output layer 20c through the hidden layer 20b with the probability "Ot" that the conversation is in an abnormal conversation situation. The probability "On", which is a normal conversation situation, is output.

本実施例では、モデル情報120bから出力される出力値Vを、式(1)により定義する。式(1)に含まれるP(t)は、式(2)により定義される値である。式(1)に含まれるP(n)は、式(3)により定義される値である。 In this embodiment, the output value V output from the model information 120b is defined by the equation (1). P (t) included in the equation (1) is a value defined by the equation (2). P (n) included in the equation (1) is a value defined by the equation (3).

V=logP(t)-logP(n)・・・(1) V = logP (t) -logP (n) ... (1)

P(t)=exp(Ot)/{exp(Ot)+exp(On)}・・・(2)
P(n)=exp(On)/{exp(Ot)+exp(On)}・・・(3)
P (t) = exp (Ot) / {exp (Ot) + exp (On)} ... (2)
P (n) = exp (On) / {exp (Ot) + exp (On)} ... (3)

出力値蓄積バッファ120cは、モデル情報120bを基に算出される出力値を格納するバッファである。図4は、本実施例1に係る出力値蓄積バッファのデータ構造の一例を示す図である。図4に示すように、この出力値蓄積バッファ120cは、時間と、出力値とを対応付ける。時間は、特徴量を抽出した音声情報の時間(会話の開始時刻からの経過時間)を示す。出力値は、該当する時間の音声情報から算出された特徴量を、モデル情報120bに入力した際に得られる出力値Vを示す。たとえば、図4に示す例では、時間「0~t」の音声情報から算出した特徴量を、モデル情報120bに入力した際に得られる出力値は、出力値Vである。 The output value storage buffer 120c is a buffer for storing the output value calculated based on the model information 120b. FIG. 4 is a diagram showing an example of the data structure of the output value storage buffer according to the first embodiment. As shown in FIG. 4, the output value storage buffer 120c associates the time with the output value. The time indicates the time of the voice information from which the feature amount is extracted (the elapsed time from the start time of the conversation). The output value indicates the output value V obtained when the feature amount calculated from the voice information at the corresponding time is input to the model information 120b. For example, in the example shown in FIG. 4, the output value obtained when the feature amount calculated from the voice information of the time “ 0 to t 1 ” is input to the model information 120b is the output value V1.

制御部130は、取得部130aと、特徴量算出部130bと、モデル学習部130cと、会話時間管理部130dと、出力値算出部130eと、判定部130fとを有する。制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部130は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。 The control unit 130 includes an acquisition unit 130a, a feature amount calculation unit 130b, a model learning unit 130c, a conversation time management unit 130d, an output value calculation unit 130e, and a determination unit 130f. The control unit 130 can be realized by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like. Further, the control unit 130 can also be realized by hard-wired logic such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

取得部130aは、音声情報を取得し、取得した音声情報を音声バッファ120aに格納する処理部である。たとえば、「モデルを学習する処理」を音声処理装置100が行う場合には、取得部130aは、学習用の音声情報を取得し、学習用の音声情報を音声バッファ120aに格納する。「会話状況を判定する処理」を音声処理装置100が行う場合には、取得部130aは、判定対象となる音声情報を取得し、音声情報を音声バッファ120aに格納する。 The acquisition unit 130a is a processing unit that acquires voice information and stores the acquired voice information in the voice buffer 120a. For example, when the voice processing device 100 performs the "process for learning a model", the acquisition unit 130a acquires the voice information for learning and stores the voice information for learning in the voice buffer 120a. When the voice processing device 100 performs the "processing for determining the conversation status", the acquisition unit 130a acquires the voice information to be determined and stores the voice information in the voice buffer 120a.

特徴量算出部130bは、音声バッファ120aに格納された音声情報を基にして、特徴量を算出する処理部である。たとえば、特徴量算出部130bが算出する特徴量は、ストレス評価値、キーワードの検出回数、会話の開始時刻からの経過時間である。ストレス評価値、検出回数、経過時間に関する説明は後述する。 The feature amount calculation unit 130b is a processing unit that calculates the feature amount based on the voice information stored in the voice buffer 120a. For example, the feature amount calculated by the feature amount calculation unit 130b is a stress evaluation value, the number of times a keyword is detected, and the elapsed time from the start time of conversation. The stress evaluation value, the number of detections, and the elapsed time will be described later.

「モデルを学習する処理」を音声処理装置100が行う場合には、特徴量算出部130bは、特徴量をモデル学習部130cに出力する。「会話状況を判定する処理」を音声処理装置100が行う場合には、特徴量算出部130bは、特徴量を、出力値算出部130eに出力する。 When the voice processing device 100 performs the "process for learning the model", the feature amount calculation unit 130b outputs the feature amount to the model learning unit 130c. When the voice processing device 100 performs the "processing for determining the conversation status", the feature amount calculation unit 130b outputs the feature amount to the output value calculation unit 130e.

図5は、本実施例1に係る特徴量算出部の構成を示す機能ブロック図である。図5に示すように、この特徴量算出部130bは、音声取得部131aと、フレーム処理部131bと、ピッチ抽出部132と、パワー算出部133と、ピッチ・パワー蓄積部134と、ストレス評価値算出部135とを有する。また、特徴量算出部130bは、音声認識部136と、認識結果蓄積部137と、会話時間算出部138とを有する。 FIG. 5 is a functional block diagram showing the configuration of the feature amount calculation unit according to the first embodiment. As shown in FIG. 5, the feature amount calculation unit 130b includes a voice acquisition unit 131a, a frame processing unit 131b, a pitch extraction unit 132, a power calculation unit 133, a pitch power storage unit 134, and a stress evaluation value. It has a calculation unit 135. Further, the feature amount calculation unit 130b has a voice recognition unit 136, a recognition result storage unit 137, and a conversation time calculation unit 138.

音声取得部131aは、音声バッファ120aに格納された音声情報を取得し、読み込んだ音声情報を、フレーム処理部131bに出力する。以下の説明では、音声取得部131aにより読み込まれたデジタル信号の音声情報を、単に、「音声情報」と表記する。 The voice acquisition unit 131a acquires the voice information stored in the voice buffer 120a and outputs the read voice information to the frame processing unit 131b. In the following description, the voice information of the digital signal read by the voice acquisition unit 131a is simply referred to as "voice information".

フレーム処理部131bは、音声取得部131aから取得する音声情報の信号時系列を、予め定められたサンプル数毎に「フレーム」として取り出し、フレームにハニング窓等の分析窓を乗算する。 The frame processing unit 131b takes out the signal time series of the voice information acquired from the voice acquisition unit 131a as a "frame" for each predetermined number of samples, and multiplies the frame by an analysis window such as a hanning window.

たとえば、フレーム処理部131bは、サンプリング周波数8kHzで32msの区間のサンプルNをフレームとして取り出す。たとえば、N=256とする。フレームに含まれる各サンプルを「s(0)、s(1)、s(2)、・・・、s(N-1)」とする。フレーム処理部131bは、上記の各サンプルに対しハミング窓を乗算する。例えば、ハミング窓は、式(4)により示される。 For example, the frame processing unit 131b takes out the sample N in a section of 32 ms at a sampling frequency of 8 kHz as a frame. For example, N = 256. Let each sample included in the frame be "s (0), s (1), s (2), ..., S (N-1)". The frame processing unit 131b multiplies each of the above samples by a humming window. For example, the humming window is represented by equation (4).

Figure 0007095414000001
Figure 0007095414000001

各サンプルに対しハミング窓を乗算したサンプルを「x(0)、x(1)、x(2)、・・・、x(N-1)」とする。以下の説明では、ハミング窓を乗算した結果得られるサンプル「x(0)、x(1)、x(2)、・・・、x(N-1)」をサンプル値と表記する。フレーム処理部131bは、フレームにハニング窓を乗算したサンプル値を、ピッチ抽出部132、パワー算出部133、音声認識部136に出力する。フレーム処理部131bは、フレーム単位で、サンプル値の情報を出力し、フレーム識別番号をフレームに付与してもよい。 The sample obtained by multiplying each sample by the humming window is defined as "x (0), x (1), x (2), ..., X (N-1)". In the following description, the sample "x (0), x (1), x (2), ..., X (N-1)" obtained by multiplying the humming window is referred to as a sample value. The frame processing unit 131b outputs the sample value obtained by multiplying the frame by the Hanning window to the pitch extraction unit 132, the power calculation unit 133, and the voice recognition unit 136. The frame processing unit 131b may output sample value information and assign a frame identification number to the frame in frame units.

ピッチ抽出部132は、フレームのサンプル値を基にして、フレームの基本周波数(ピッチ)を抽出する処理部である。ピッチ抽出部132は、フレーム毎のピッチの情報を、ピッチ・パワー蓄積部134に蓄積する。 The pitch extraction unit 132 is a processing unit that extracts the fundamental frequency (pitch) of the frame based on the sample value of the frame. The pitch extraction unit 132 stores pitch information for each frame in the pitch power storage unit 134.

たとえば、ピッチ抽出部132は、フレームの各サンプル値を用いて、自己相関関数を計算する。ピッチ抽出部132は、式(5)に基づいて、自己相関関数φ(m)を計算する。式(5)に示すmは、遅延時間を示す。 For example, the pitch extraction unit 132 calculates an autocorrelation function using each sample value of the frame. The pitch extraction unit 132 calculates the autocorrelation function φ (m) based on the equation (5). The m shown in the equation (5) indicates the delay time.

Figure 0007095414000002
Figure 0007095414000002

ピッチ抽出部132は、式(5)について、遅延時間m=0以外において、自己相関関数が極大値となる遅延時間mの値を特定する。自己相関関数が極大となる遅延時間mを「遅延時間m’」と表記する。ピッチ抽出部132は、遅延時間m’を算出した後に、式(6)に基づいて、ピッチを算出する。 The pitch extraction unit 132 specifies the value of the delay time m at which the autocorrelation function becomes the maximum value for the equation (5) except for the delay time m = 0. The delay time m at which the autocorrelation function is maximized is expressed as "delay time m'". The pitch extraction unit 132 calculates the pitch based on the equation (6) after calculating the delay time m'.

ピッチ=1/遅延時間m’・・・(6) Pitch = 1 / delay time m'... (6)

ピッチ抽出部132は、各フレームのサンプル値に対して、上記の処理を繰り返し実行することで、各フレームからピッチをそれぞれ算出する。ただし、前記自己相関関数の極大値が、予め決められた閾値以下の場合には、無音区間として、そのフレームのピッチとパワーは後の処理には使用しない。 The pitch extraction unit 132 repeatedly executes the above processing for the sample value of each frame to calculate the pitch from each frame. However, when the maximum value of the autocorrelation function is equal to or less than a predetermined threshold value, the pitch and power of the frame are not used for the subsequent processing as a silent section.

パワー算出部133は、フレームのサンプル値を基にして、フレームのパワーを算出する処理部である。パワー算出部133は、フレーム毎のパワーの情報を、ピッチ・パワー蓄積部134に蓄積する。 The power calculation unit 133 is a processing unit that calculates the power of the frame based on the sample value of the frame. The power calculation unit 133 stores power information for each frame in the pitch power storage unit 134.

たとえば、パワー算出部133は、フレームの各サンプル値「「x(0)、x(1)、x(2)、・・・、x(N-1)」の二乗値の総和に対し、対数をとることで、フレームのパワーを算出する。具体的に、パワー算出部133は、式(7)に基づいて、フレームのパワーを算出する。 For example, the power calculation unit 133 is a logarithm with respect to the sum of the squared values of each sample value "x (0), x (1), x (2), ..., X (N-1)" of the frame. By taking, the power of the frame is calculated. Specifically, the power calculation unit 133 calculates the power of the frame based on the equation (7).

Figure 0007095414000003
Figure 0007095414000003

ピッチ・パワー蓄積部134は、ピッチ抽出部132により抽出されたピッチの情報およびパワー算出部133により算出されたパワーの情報を格納するバッファである。図6は、本実施例1に係るピッチ・パワー蓄積部のデータ構造の一例を示す図である。図6に示すように、ピッチ・パワー蓄積部134は、フレーム識別番号と、ピッチと、パワーとを対応付ける。ただし、ピッチ抽出部132において無音区間とされたフレームはバッファには含めない。 The pitch power storage unit 134 is a buffer that stores pitch information extracted by the pitch extraction unit 132 and power information calculated by the power calculation unit 133. FIG. 6 is a diagram showing an example of the data structure of the pitch power storage unit according to the first embodiment. As shown in FIG. 6, the pitch power storage unit 134 associates the frame identification number with the pitch and the power. However, the frame set as the silent section in the pitch extraction unit 132 is not included in the buffer.

ストレス評価値算出部135は、ピッチ・パワー蓄積部134に格納されたピッチおよびパワーの情報を基にして、設定時刻毎にストレス評価値を算出する処理部である。たとえば、ストレス評価値算出部135は、利用者の平常時のピッチおよびパワーの組をサンプルとした際のばらつき具合と比較して、現在のピッチおよびパワーの組のサンプルのばらつき具合が大きいほど、ストレス評価値を大きくし、小さいほどストレス評価値を小さくする。 The stress evaluation value calculation unit 135 is a processing unit that calculates a stress evaluation value for each set time based on the pitch and power information stored in the pitch power storage unit 134. For example, in the stress evaluation value calculation unit 135, the greater the variation in the sample of the current pitch and power set, the greater the variation in the sample when the user's normal pitch and power set is used as a sample. The stress evaluation value is increased, and the smaller the stress evaluation value is, the smaller the stress evaluation value is.

ストレス評価値算出部135は、音声処理装置100が「会話状況を判定する処理」を行う場合に、次の処理を行う。ストレス評価値算出部135は、会話の開始時刻から、出力制御信号を受信した時刻までに蓄積されたピッチ・パワーの組のサンプルを用いて、混合ガウス分布を最尤推定によりモデル化し、推定に用いたサンプルに対するモデルの平均対数尤度にマイナス1を掛けたものを、ストレス評価値として算出し、算出したストレス評価値を、出力値算出部130eに出力する。「出力制御信号」は、会話時間管理部130dから出力される信号である。たとえば、ストレス評価値算出部135は、特開2015-082093に記載されたEMアルゴリズム(期待値最大化法)を用いて、最尤推定によるモデル化を行う。 The stress evaluation value calculation unit 135 performs the following processing when the voice processing device 100 performs the “processing for determining the conversation status”. The stress evaluation value calculation unit 135 models and estimates the mixed Gaussian distribution by maximum likelihood estimation using a sample of a set of pitch powers accumulated from the start time of the conversation to the time when the output control signal is received. The average log-likelihood of the model for the sample used is multiplied by -1 to calculate as a stress evaluation value, and the calculated stress evaluation value is output to the output value calculation unit 130e. The "output control signal" is a signal output from the conversation time management unit 130d. For example, the stress evaluation value calculation unit 135 uses the EM algorithm (expected value maximization method) described in Japanese Patent Application Laid-Open No. 2015-082093 to perform modeling by maximum likelihood estimation.

音声認識部136は、たとえば、ワードスポッティング型の音声認識を行うことで、音声情報に所定のキーワードが含まれているか否かを検出する処理部である。音声認識部136は、音声情報から所定のキーワードを検出する度に、所定のキーワードに対応する検出回数に1を加算する処理を行う。音声認識部136は、所定のキーワードと、検出回数とを対応付けた情報を、認識結果蓄積部137に蓄積する。所定のキーワードは、顧客が不満を感じた場合や、怒っている際によく発言するキーワードである。 The voice recognition unit 136 is a processing unit that detects whether or not a predetermined keyword is included in the voice information by, for example, performing word spotting type voice recognition. The voice recognition unit 136 performs a process of adding 1 to the number of detections corresponding to the predetermined keyword each time the predetermined keyword is detected from the voice information. The voice recognition unit 136 stores information in which a predetermined keyword is associated with the number of detections in the recognition result storage unit 137. A predetermined keyword is a keyword that is often spoken when a customer is dissatisfied or angry.

また、音声認識部136は、音声認識を行うための音声区間検出処理を開始し、音声区間を検出した際の、音声区間の開始時間と終了時間の情報を、会話時間算出部138に出力する。 Further, the voice recognition unit 136 starts the voice section detection process for performing voice recognition, and outputs the information of the start time and the end time of the voice section when the voice section is detected to the conversation time calculation unit 138. ..

認識結果蓄積部137は、音声認識部136により検出された各キーワード(所定のキーワード)の検出回数の情報(検出回数情報)を保持する。図7は、本実施例1に係る検出回数情報のデータ構造の一例を示す図である。図7に示すように、検出回数情報137aは、キーワードと検出回数とを対応付ける。 The recognition result accumulating unit 137 holds information (detection number information) of the number of detections of each keyword (predetermined keyword) detected by the voice recognition unit 136. FIG. 7 is a diagram showing an example of a data structure of detection frequency information according to the first embodiment. As shown in FIG. 7, the detection number information 137a associates the keyword with the detection number.

認識結果蓄積部137は、音声処理装置100が「モデルを学習する処理」を行う場合には、次の処理を行う。認識結果蓄積部137は、会話の開始時刻から、会話の終了時刻における検出回数情報137aを、モデル学習部130cに出力する。 When the voice processing device 100 performs the "process for learning the model", the recognition result accumulating unit 137 performs the following processing. The recognition result storage unit 137 outputs the detection number information 137a at the end time of the conversation from the start time of the conversation to the model learning unit 130c.

認識結果蓄積部137は、音声処理装置100が「会話状況を判定する処理」を行う場合には、次の処理を行う。認識結果蓄積部137は、会話の開始時刻から、出力制御信号を受信した時刻までの検出回数情報137aを、出力値算出部130eに出力する。 When the voice processing device 100 performs the "processing for determining the conversation status", the recognition result accumulating unit 137 performs the following processing. The recognition result storage unit 137 outputs the detection number information 137a from the start time of the conversation to the time when the output control signal is received to the output value calculation unit 130e.

会話時間算出部138は、会話の開始時刻からの会話の経過時間を計算する処理部である。たとえば、会話時間算出部138は、図示しないタイマから時間情報を取得し、会話の開始時刻からの経過時間を計測する。会話時間算出部138は、各フレームに含まれるサンプル数の累計を基にして、経過時間を推定してもよい。会話時間算出部138は、開始時刻と、開始時刻からの経過時間との情報を、会話時間管理部130dに出力する。 The conversation time calculation unit 138 is a processing unit that calculates the elapsed time of the conversation from the start time of the conversation. For example, the conversation time calculation unit 138 acquires time information from a timer (not shown) and measures the elapsed time from the start time of the conversation. The conversation time calculation unit 138 may estimate the elapsed time based on the cumulative number of samples included in each frame. The conversation time calculation unit 138 outputs the information of the start time and the elapsed time from the start time to the conversation time management unit 130d.

たとえば、会話時間算出部138は、音声認識部136から、検出した音声区間の開始時刻の情報をはじめに受け付けた開始時刻を、会話の開始時刻として特定する。会話時間算出部138は、検出した音声区間の情報を最後に受け付けた終了時刻から、所定時間経過しても、単語を検出した旨の情報を新たに受け付けない場合には、会話が終了したと判定する。会話時間算出部138は、会話が終了したと判定した場合には、検出した音声区間を最後に受け付けた終了時刻を終了時刻として特定する。会話時間算出部138は、会話の終了時刻の情報を、会話時間管理部130dに出力する。 For example, the conversation time calculation unit 138 specifies the start time at which the information on the start time of the detected voice section is first received from the voice recognition unit 136 as the conversation start time. If the conversation time calculation unit 138 does not newly accept the information that the word has been detected even after a predetermined time has elapsed from the end time when the information of the detected voice section was last received, the conversation is terminated. judge. When the conversation time calculation unit 138 determines that the conversation has ended, the conversation time calculation unit 138 specifies the end time at which the detected voice section was last received as the end time. The conversation time calculation unit 138 outputs information on the end time of the conversation to the conversation time management unit 130d.

会話時間算出部138は、音声処理装置100が「モデルを学習する処理」を行う場合には、次の処理を行う。会話時間算出部138は、会話の開始時刻から、会話の終了時刻までの経過時間の情報を、モデル学習部130cに出力する。 When the voice processing device 100 performs the "process for learning the model", the conversation time calculation unit 138 performs the following processing. The conversation time calculation unit 138 outputs information on the elapsed time from the conversation start time to the conversation end time to the model learning unit 130c.

会話時間算出部138は、音声処理装置100が「会話状況を判定する処理」を行う場合には、次の処理を行う。会話時間算出部138は、会話の開始時刻から、出力制御信号を受信した時刻までの経過時間の情報を、出力値算出部130eに出力する。 When the voice processing device 100 performs the "processing for determining the conversation status", the conversation time calculation unit 138 performs the following processing. The conversation time calculation unit 138 outputs information on the elapsed time from the conversation start time to the time when the output control signal is received to the output value calculation unit 130e.

図2の説明に戻る。モデル学習部130cは、学習用の音声情報から算出された特徴量を用いて、モデル情報120bを生成(学習)する処理部である。モデル学習部130cは、モデル情報120bを生成する場合には、予め、学習用の音声情報に対応する正解データを保持しておくものとする。たとえば、学習の音声情報が、「異常な会話状況」を含むものであれば、正解データの「Ot(異常な会話状況である確率)」の値は、「On(通常の会話状況である確率)」の値よりも大きい値となる。一方、学習の音声情報が、「通常の会話状況」の音声情報であれば、正解データの「Ot(異常な会話状況である確率)」の値は、「On(通常の会話状況である確率)」の値よりも小さい値となる。 Returning to the description of FIG. The model learning unit 130c is a processing unit that generates (learns) model information 120b using a feature amount calculated from voice information for learning. When the model learning unit 130c generates the model information 120b, it is assumed that the correct answer data corresponding to the voice information for learning is stored in advance. For example, if the voice information of learning includes "abnormal conversation situation", the value of "Ot (probability of abnormal conversation situation)" of the correct answer data is "On (probability of normal conversation situation)". ) ”, Which is larger than the value. On the other hand, if the voice information of learning is the voice information of "normal conversation situation", the value of "Ot (probability of abnormal conversation situation)" of the correct answer data is "On (probability of normal conversation situation)". ) ”, Which is smaller than the value.

モデル学習部130cは、学習用の音声情報から算出された特徴量をモデル情報120bの入力層20aに入力して、出力層20cから出力される値と、正解データとの差を小さくするように、隠れ層20bおよび出力層20cのバイアス値、エッジの重みを調整する。モデル学習部130cは、各学習用の音声情報と、各学習用の音声情報に対応する正解データを用いて、上記処理を繰り返し実行することで、モデル情報120bを学習する。たとえば、モデル学習部130cは、Back Propagation法等のアルゴリズムを用いて、モデル情報120bを学習してもよい。 The model learning unit 130c inputs the feature amount calculated from the learning voice information into the input layer 20a of the model information 120b so as to reduce the difference between the value output from the output layer 20c and the correct answer data. , The bias value of the hidden layer 20b and the output layer 20c, and the weight of the edge are adjusted. The model learning unit 130c learns the model information 120b by repeatedly executing the above processing using the voice information for each learning and the correct answer data corresponding to the voice information for each learning. For example, the model learning unit 130c may learn the model information 120b by using an algorithm such as the Back Propagation method.

会話時間管理部130dは、会話時間算出部138から、会話の開始時刻と、会話の開始時刻からの経過時間とを取得し、予め指定された時間Tを経過したか否かを判定する。会話時間管理部130dは、時間Tを経過する度に、「出力制御信号」を、ストレス評価値算出部135、認識結果蓄積部137、会話時間算出部138、出力値算出部130eに出力する。 The conversation time management unit 130d acquires the conversation start time and the elapsed time from the conversation start time from the conversation time calculation unit 138, and determines whether or not the predetermined time T has elapsed. The conversation time management unit 130d outputs an "output control signal" to the stress evaluation value calculation unit 135, the recognition result storage unit 137, the conversation time calculation unit 138, and the output value calculation unit 130e each time the time T elapses.

会話時間管理部130dは、会話時間算出部138から、会話の終了時刻の情報を受け付けた場合には、会話の終了時刻の情報を、判定部130fに出力する。 When the conversation time management unit 130d receives the information on the end time of the conversation from the conversation time calculation unit 138, the conversation time management unit 130d outputs the information on the end time of the conversation to the determination unit 130f.

出力値算出部130eは、特徴量算出部130bから取得する特徴量と、モデル情報120bとを基にして、出力値を算出する処理部である。出力値算出部130eは、算出した出力値を、出力値蓄積バッファ120cに蓄積する。 The output value calculation unit 130e is a processing unit that calculates an output value based on the feature amount acquired from the feature amount calculation unit 130b and the model information 120b. The output value calculation unit 130e stores the calculated output value in the output value storage buffer 120c.

たとえば、出力値算出部130eは、会話時間管理部130dから出力制御信号を取得したタイミングで、特徴量算出部130bから特徴量を取得し、取得した特徴量をモデル情報120bの入力層20aに入力する。出力値算出部130eは、特徴量をモデル情報120bの入力層20aに入力した際に、出力層20cから出力される確率「Ot」と、確率「On」との値を取得し、式(1)~式(3)を基にして、出力値Vを算出する。 For example, the output value calculation unit 130e acquires a feature amount from the feature amount calculation unit 130b at the timing when the output control signal is acquired from the conversation time management unit 130d, and inputs the acquired feature amount to the input layer 20a of the model information 120b. do. When the feature amount is input to the input layer 20a of the model information 120b, the output value calculation unit 130e acquires the values of the probability “Ot” and the probability “On” output from the output layer 20c, and obtains the values of the equation (1). )-Equation (3) is used to calculate the output value V.

出力値算出部130eは、会話時間管理部130dから出力制御信号を取得する度に、上記の処理を繰り返し実行することで、各経過時間の特徴量に対応する出力値Vを順次算出し、算出した出力値Vの情報を、出力値蓄積バッファ120cに格納する。出力値算出部130eは、出力値Vを蓄積する場合に、経過時間(時間)を対応付ける。 Each time the output value calculation unit 130e acquires an output control signal from the conversation time management unit 130d, the output value calculation unit 130e repeatedly executes the above processing to sequentially calculate and calculate the output value V corresponding to the feature amount of each elapsed time. The information of the output value V is stored in the output value storage buffer 120c. The output value calculation unit 130e associates the elapsed time (time) with the accumulated output value V.

判定部130fは、出力値蓄積バッファ120cに格納された出力値の軌跡を基にして、会話が異常な会話状況であるのか、通常の会話状況であるのかを判定する処理部である。判定部130fは、判定結果を表示装置(図示略)に出力して表示させてもよいし、通信部110を介して、外部装置に通知してもよい。 The determination unit 130f is a processing unit that determines whether the conversation is in an abnormal conversation situation or a normal conversation situation based on the locus of the output value stored in the output value storage buffer 120c. The determination unit 130f may output the determination result to a display device (not shown) and display it, or may notify the external device via the communication unit 110.

判定部130fが行う判定処理は、様々なバリエーションがある。以下では、判定部130fが行う判定処理のバリエーション1~4について説明する。どのバリエーションにより、判定処理を行うかは、利用者が予め設定しておくものとする。 There are various variations in the determination process performed by the determination unit 130f. Hereinafter, variations 1 to 4 of the determination process performed by the determination unit 130f will be described. It is assumed that the user sets in advance which variation is used for the determination process.

図8は、判定処理のバリエーション1を説明するための図である。図8において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部130fは、閾値50を設け、この閾値50により、出力値のとりうる範囲を、領域50aと領域50bとを設ける。出力値が閾値50を超える場合には、会話状況が異常な会話状況である可能性が高い。閾値50は、予め設定される閾値である。 FIG. 8 is a diagram for explaining variation 1 of the determination process. In FIG. 8, the vertical axis corresponds to the output value, and the horizontal axis corresponds to the conversation time. The determination unit 130f provides a threshold value 50, and the threshold value 50 provides a range in which the output value can be taken, a region 50a and a region 50b. When the output value exceeds the threshold value 50, it is highly possible that the conversation situation is an abnormal conversation situation. The threshold value 50 is a preset threshold value.

判定部130fは、出力値の軌跡と、閾値50とを比較し、出力値の軌跡が閾値50を超えて領域50aに含まれた時点で、会話が異常な会話状況であると判定する。 The determination unit 130f compares the locus of the output value with the threshold value 50, and determines that the conversation is in an abnormal conversation situation when the locus of the output value exceeds the threshold value 50 and is included in the region 50a.

判定部130fは、出力値の軌跡30aと、閾値50とを比較すると、軌跡30aは、閾値50を超えないまま会話が終了している。判定部130fは、出力値の軌跡30aに対応する会話を「通常の会話状況」であると判定する。 When the determination unit 130f compares the locus 30a of the output value with the threshold value 50, the conversation ends without the locus 30a exceeding the threshold value 50. The determination unit 130f determines that the conversation corresponding to the locus 30a of the output value is a "normal conversation situation".

判定部130fは、出力値の軌跡30bと、閾値50とを比較すると、軌跡30bは、閾値50を超えて、一旦領域50aに侵入し、その後、領域50bに戻っている。判定部130fは、軌跡30bが会話の終盤で、領域50bに戻っているものの、閾値50を一度超えているため、軌跡30bに対応する会話を「異常な会話状況」であると判定する。 When the locus 30b of the output value is compared with the threshold value 50, the determination unit 130f exceeds the threshold value 50, temporarily enters the region 50a, and then returns to the region 50b. The determination unit 130f determines that the conversation corresponding to the locus 30b is an "abnormal conversation situation" because the locus 30b returns to the area 50b at the end of the conversation but exceeds the threshold value 50 once.

判定部130fは、出力値の軌跡30cと、閾値50とを比較すると、軌跡30cは、閾値50を超えて、領域50aに侵入している。判定部130fは、軌跡30cに対応する会話を「異常な会話状況」であると判定する。 When the determination unit 130f compares the locus 30c of the output value with the threshold value 50, the locus 30c exceeds the threshold value 50 and invades the region 50a. The determination unit 130f determines that the conversation corresponding to the locus 30c is an "abnormal conversation situation".

図9は、判定処理のバリエーション2を説明するための図である。図9において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部130fは、閾値50,51を設け、この閾値50,51により、領域50b,51a,51bを設ける。出力値が閾値50を超える場合には、会話が異常な会話状況である可能性が高い。出力値が閾値51を超える場合には、会話が異常な会話状況である可能性が極めて高い(確実に異常な会話状況である)。閾値50,51は、予め設定される閾値である。 FIG. 9 is a diagram for explaining variation 2 of the determination process. In FIG. 9, the vertical axis corresponds to the output value, and the horizontal axis corresponds to the conversation time. The determination unit 130f is provided with threshold values 50 and 51, and the regions 50b, 51a and 51b are provided by the threshold values 50 and 51. If the output value exceeds the threshold value 50, it is highly possible that the conversation is in an abnormal conversation situation. When the output value exceeds the threshold value 51, it is highly possible that the conversation is in an abnormal conversation situation (certainly, it is an abnormal conversation situation). The threshold values 50 and 51 are preset threshold values.

判定部130fは、出力値の軌跡と、閾値50,51とを比較し、出力値の軌跡が閾値51を超えて領域51bに含まれた時点で、会話が異常な会話状況であると判定する。判定部130fは、出力値の軌跡と、閾値50,51とを比較し、出力値の軌跡の全体が、領域51aに含まれている場合には、会話が異常な会話状況であると判定する。判定部130fは、出力値の軌跡と、閾値50,51とを比較し、出力値の軌跡の一部が、領域50bに含まれている場合には、会話が通常の会話状況であると判定する。 The determination unit 130f compares the locus of the output value with the threshold values 50 and 51, and determines that the conversation is in an abnormal conversation situation when the locus of the output value exceeds the threshold value 51 and is included in the region 51b. .. The determination unit 130f compares the locus of the output value with the threshold values 50 and 51, and if the entire locus of the output value is included in the area 51a, determines that the conversation is an abnormal conversation situation. .. The determination unit 130f compares the locus of the output value with the threshold values 50 and 51, and if a part of the locus of the output value is included in the area 50b, determines that the conversation is a normal conversation situation. do.

判定部130fは、出力値の軌跡31aと、閾値50,51と比較すると、軌跡31aの一部が領域50bに含まれている。このため、判定部130fは、軌跡31aに対応する会話を「通常の会話状況」であると判定する。 The determination unit 130f includes a part of the locus 31a in the region 50b when compared with the locus 31a of the output value and the threshold values 50 and 51. Therefore, the determination unit 130f determines that the conversation corresponding to the locus 31a is a "normal conversation situation".

判定部130fは、出力値の軌跡31bと、閾値50,51とを比較すると、軌跡31bは、閾値51を超えて、領域51bに侵入している。判定部130fは、軌跡31bが会話の終盤で、領域50bに戻っているものの、閾値50を一度超えているため、軌跡31bに対応する会話を「異常な会話状況」であると判定する。 When the determination unit 130f compares the locus 31b of the output value with the threshold values 50 and 51, the locus 31b exceeds the threshold value 51 and invades the region 51b. The determination unit 130f determines that the conversation corresponding to the locus 31b is an "abnormal conversation situation" because the locus 31b returns to the area 50b at the end of the conversation but exceeds the threshold value 50 once.

判定部130fは、出力値の軌跡31cと、閾値50,51とを比較すると、出力値の軌跡31cの全体が、領域51aに含まれている。このため、判定部130fは、軌跡31cに対応する会話を「異常な会話状況」であると判定する。 When the determination unit 130f compares the locus 31c of the output value with the threshold values 50 and 51, the entire locus 31c of the output value is included in the region 51a. Therefore, the determination unit 130f determines that the conversation corresponding to the locus 31c is an "abnormal conversation situation".

図10は、判定処理のバリエーション3を説明するための図である。図10において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部130fは、閾値50,52を設け、この閾値50,52により、領域50a,52a,52bを設ける。出力値が閾値50を超える場合には、会話が異常な会話状況である可能性が高い。出力値が閾値52以下となる場合には、会話が通常の会話状況である可能性が極めて高い(確実に通常の会話状況である)。閾値50,52は、予め設定される閾値である。 FIG. 10 is a diagram for explaining variation 3 of the determination process. In FIG. 10, the vertical axis corresponds to the output value, and the horizontal axis corresponds to the conversation time. The determination unit 130f is provided with threshold values 50 and 52, and the regions 50a, 52a and 52b are provided by the threshold values 50 and 52. If the output value exceeds the threshold value 50, it is highly possible that the conversation is in an abnormal conversation situation. When the output value is equal to or less than the threshold value 52, it is highly possible that the conversation is in a normal conversation situation (certainly, it is a normal conversation situation). The threshold values 50 and 52 are preset threshold values.

判定部130fは、出力値の軌跡と、閾値50,52とを比較し、出力値の軌跡が閾値52を下回り、領域52aに含まれた時点で、会話が通常の会話状況であると判定する。判定部130fは、出力値の軌跡と、閾値50,52とを比較し、軌跡が領域52aに含まれず、かつ、閾値50を超えた場合には、会話が異常な会話状況であると判定する。 The determination unit 130f compares the locus of the output value with the threshold values 50 and 52, and determines that the conversation is a normal conversation situation when the locus of the output value falls below the threshold value 52 and is included in the region 52a. .. The determination unit 130f compares the locus of the output value with the threshold values 50 and 52, and if the locus is not included in the region 52a and exceeds the threshold value 50, the determination unit 130f determines that the conversation is in an abnormal conversation situation. ..

判定部130fは、出力値の軌跡32aと、閾値50,52とを比較すると、軌跡32aは一度も閾値52を下回らず、軌跡の一部が領域50aに含まれている。このため、判定部130fは、軌跡32aに対応する会話を「異常な会話状況」であると判定する。 When the locus 32a of the output value is compared with the threshold values 50 and 52, the determination unit 130f never falls below the threshold value 52, and a part of the locus is included in the region 50a. Therefore, the determination unit 130f determines that the conversation corresponding to the locus 32a is an "abnormal conversation situation".

判定部130fは、出力値の軌跡32bと閾値50,52とを比較すると、軌跡32bは、軌跡の一部が領域50aに含まれているものの、閾値52を下回っている時間帯がある。このため、判定部130fは、軌跡32bに対する会話を「通常の会話状況」であると判定する。 When the determination unit 130f compares the locus 32b of the output value with the threshold values 50 and 52, the locus 32b has a time zone in which a part of the locus is included in the region 50a but is below the threshold value 52. Therefore, the determination unit 130f determines that the conversation with respect to the locus 32b is a "normal conversation situation".

図11は、判定処理のバリエーション4を説明するための図である。図11において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部130fは、閾値50,51,52を設け、この閾値50,51,52により、領域51a,51b,52a,52bを設ける。出力値が閾値51を超える場合には、会話が異常な会話状況である可能性が極めて高い(確実に異常な会話状況である)。出力値が閾値52以下となる場合には、会話が通常の会話状況である可能性が極めて高い(確実に通常の会話状況である)。閾値50,51,52は、予め設定される閾値である。 FIG. 11 is a diagram for explaining variation 4 of the determination process. In FIG. 11, the vertical axis corresponds to the output value, and the horizontal axis corresponds to the conversation time. The determination unit 130f is provided with threshold values 50, 51, 52, and the regions 51a, 51b, 52a, 52b are provided by the threshold values 50, 51, 52. When the output value exceeds the threshold value 51, it is highly possible that the conversation is in an abnormal conversation situation (certainly, it is an abnormal conversation situation). When the output value is equal to or less than the threshold value 52, it is highly possible that the conversation is in a normal conversation situation (certainly, it is a normal conversation situation). The threshold values 50, 51, and 52 are preset threshold values.

判定部130fは、出力値の軌跡と、閾値50,51,52とを比較し、軌跡の一部が領域51a、52bに含まれる場合において、会話の終了時刻に近い方を優先する。たとえば、判定部130fは、出力値の軌跡が、先に閾値51を上回り、その後に、閾値52以下となった場合には、軌跡が閾値52以下となったことを優先し、「通常の会話状況」であると判定する。判定部130fは、出力値の軌跡が、先に閾値52以下となり、その後に、閾値51を上回った場合には、軌跡が閾値51以上となったことを優先し、「異常な会話状況」であると判定する。 The determination unit 130f compares the locus of the output value with the threshold values 50, 51, 52, and when a part of the locus is included in the regions 51a and 52b, priority is given to the one closer to the end time of the conversation. For example, when the locus of the output value exceeds the threshold value 51 first and then becomes the threshold value 52 or less, the determination unit 130f gives priority to the fact that the locus becomes the threshold value 52 or less, and "normal conversation". It is determined that the situation is "situation". When the locus of the output value first becomes the threshold value 52 or less and then exceeds the threshold value 51, the determination unit 130f gives priority to the fact that the locus becomes the threshold value 51 or more, and in an "abnormal conversation situation". Judge that there is.

判定部130fは、出力値の軌跡33aと、閾値50,51,52とを比較すると、軌跡33aは、先に閾値51を上回り、その後に、閾値52以下となっている。判定部130fは、会話の終了時刻に近い「軌跡33aが閾値52以下となった」ことを優先し、軌跡33aに対応する会話を「通常の会話状況」であると判定する。 When the determination unit 130f compares the locus 33a of the output value with the threshold values 50, 51, 52, the locus 33a first exceeds the threshold value 51 and then becomes the threshold value 52 or less. The determination unit 130f gives priority to "the locus 33a is equal to or less than the threshold value 52" near the end time of the conversation, and determines that the conversation corresponding to the locus 33a is the "normal conversation situation".

判定部130fは、出力値の軌跡33bと、閾値50,51,52とを比較すると、軌跡33bは、先に閾値52以下となり、その後に、閾値51を上回っている。判定部130fは、会話の終了時刻に近い「軌跡33bが閾値51を上回った」ことを優先し、軌跡33bに対応する会話を「異常な会話状況」であると判定する。 When the determination unit 130f compares the locus 33b of the output value with the threshold values 50, 51, 52, the locus 33b first becomes the threshold value 52 or less, and then exceeds the threshold value 51. The determination unit 130f gives priority to "the locus 33b exceeds the threshold value 51" near the end time of the conversation, and determines that the conversation corresponding to the locus 33b is an "abnormal conversation situation".

次に、本実施例1に係る音声処理装置100の処理手順の一例について説明する。図12は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。図12に示すように、音声処理装置100の特徴量算出部130bは、フレーム処理を実行して、音声情報からフレームを抽出する(ステップS101)。特徴量算出部130bは、フレームのピッチを抽出し(ステップS102)、パワーを算出する(ステップS103)。 Next, an example of the processing procedure of the voice processing apparatus 100 according to the first embodiment will be described. FIG. 12 is a flowchart showing a processing procedure of the voice processing apparatus according to the first embodiment. As shown in FIG. 12, the feature amount calculation unit 130b of the voice processing device 100 executes frame processing and extracts a frame from the voice information (step S101). The feature amount calculation unit 130b extracts the pitch of the frame (step S102) and calculates the power (step S103).

特徴量算出部130bは、ピッチおよびパワーの値を蓄積し(ステップS104)、ステップS107に移行する。一方、特徴量算出部130bは、音声認識を実行し(ステップS105)、検出回数情報を更新し(ステップS106)、ステップS107に移行する。 The feature amount calculation unit 130b accumulates pitch and power values (step S104), and proceeds to step S107. On the other hand, the feature amount calculation unit 130b executes voice recognition (step S105), updates the detection number information (step S106), and proceeds to step S107.

音声処理装置100の会話時間管理部130dは、出力値を算出する時間であるか否かを判定する(ステップS107)。会話時間管理部130dは、出力値を算出する時間でない場合には(ステップS107,No)、ステップS101に移行する。 The conversation time management unit 130d of the voice processing device 100 determines whether or not it is time to calculate the output value (step S107). If it is not the time to calculate the output value (steps S107, No), the conversation time management unit 130d shifts to step S101.

音声処理装置100は、出力値を算出する時間である場合には(ステップS107,Yes)、ストレス評価値を算出し(ステップS108)、ステップS109に移行する。音声処理装置100の出力値算出部130eは、モデルの出力値を算出し、出力値蓄積バッファ120cに蓄積する(ステップS109)。音声処理装置100の判定部130fは、出力値の軌跡を算出し(ステップS110)、図13のステップS111に移行する。 When it is time to calculate the output value (step S107, Yes), the voice processing device 100 calculates the stress evaluation value (step S108), and proceeds to step S109. The output value calculation unit 130e of the voice processing device 100 calculates the output value of the model and stores it in the output value storage buffer 120c (step S109). The determination unit 130f of the voice processing device 100 calculates the locus of the output value (step S110), and proceeds to step S111 of FIG.

図13の説明に移行する。判定部130fは、軌跡を基にして、異常な会話状況か否かを判定する(ステップS111)。判定部130fは、判定結果が確定した場合には(ステップS112,Yes)、ステップS115に移行する。 The description shifts to FIG. The determination unit 130f determines whether or not there is an abnormal conversation situation based on the locus (step S111). When the determination result is confirmed (step S112, Yes), the determination unit 130f shifts to step S115.

判定部130fは、判定結果が確定していない場合には(ステップS112,No)、会話が終了したか否かを判定する(ステップS113)。判定部130fは、会話が終了していない場合には(ステップS113,No)、図12のステップS101に移行する。 If the determination result is not finalized (step S112, No), the determination unit 130f determines whether or not the conversation has ended (step S113). If the conversation is not completed (step S113, No), the determination unit 130f proceeds to step S101 in FIG.

判定部130fは、判定結果が確定した場合には(ステップS113,Yes)、軌跡を基にして、異常な会話状況か否かを判定する(ステップS114)。判定部130fは、判定結果を出力する(ステップS115)。 When the determination result is confirmed (step S113, Yes), the determination unit 130f determines whether or not there is an abnormal conversation situation based on the locus (step S114). The determination unit 130f outputs the determination result (step S115).

次に、本実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、音声情報に含まれる会話の開始時刻から所定の時間間隔毎に設定時刻を設定し、開始時刻から各設定時刻までの音声情報から複数の特徴量を算出する。音声処理装置100は、各特徴量をモデル情報120bに入力し、モデル情報120bから得られる各出力値の軌跡を基にして、会話が異常な会話状況であるか否かを判定する。これにより、通常の会話状況か異常な会話状況かを判定することが可能となる。 Next, the effect of the voice processing device 100 according to the first embodiment will be described. The voice processing device 100 sets a set time at predetermined time intervals from the start time of the conversation included in the voice information, and calculates a plurality of feature quantities from the voice information from the start time to each set time. The voice processing device 100 inputs each feature amount into the model information 120b, and determines whether or not the conversation is in an abnormal conversation situation based on the locus of each output value obtained from the model information 120b. This makes it possible to determine whether the conversation situation is normal or abnormal.

音声処理装置100は、出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、出力値の軌跡と、異常領域、通常領域とを基にして、会話が異常な会話状況であるか否かを判定する。これにより、会話の一部に異常な状況が含まれている場合でも、会話状況が異常であるか否かを正確に判定することができる。 The voice processing device 100 divides the range that the locus of the output value can take into an abnormal area that is taken when the conversation situation is abnormal and a normal area that is taken when the conversation situation is normal, and the locus of the output value. And, based on the abnormal area and the normal area, it is determined whether or not the conversation is in an abnormal conversation situation. As a result, even if an abnormal situation is included in a part of the conversation, it is possible to accurately determine whether or not the conversation situation is abnormal.

図14は、本実施例1に係る音声処理装置の効果を説明するための図である。図14では、グラフ60a,60b,60cを示す。各グラフ60a~60cにおいて、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。閾値50,51に関する説明は、図9の説明と同様である。閾値55は、参考技術1が会話状況の異常、通常を判定する場合に用いる閾値である。 FIG. 14 is a diagram for explaining the effect of the voice processing device according to the first embodiment. FIG. 14 shows graphs 60a, 60b, 60c. In each of the graphs 60a to 60c, the vertical axis corresponds to the output value, and the horizontal axis corresponds to the conversation time. The description of the threshold values 50 and 51 is the same as that of FIG. The threshold value 55 is a threshold value used by Reference Technique 1 when determining an abnormality or normal conversation situation.

グラフ60aに示す各軌跡は、異常な会話状況に対する典型的な軌跡を示す実験結果であり、1本の軌跡は1会話に対応する。グラフ60aに示す各軌跡のうち、領域61aに含まれるものは、判定部130fにより、会話が異常な会話状況であることを判定できる。また、領域61aに含まれていなくても、ほとんどの軌跡が、領域61bに含まれていないため、会話が異常な会話状況であることを判定できる。たとえば、図9で説明したバリエーション2に基づく判定処理により、正確に判定できる。 Each locus shown in the graph 60a is an experimental result showing a typical locus for an abnormal conversation situation, and one locus corresponds to one conversation. Among the loci shown in the graph 60a, those included in the area 61a can be determined by the determination unit 130f that the conversation is in an abnormal conversation situation. Further, even if the locus is not included in the region 61a, most of the loci are not included in the region 61b, so that it can be determined that the conversation is in an abnormal conversation situation. For example, it can be accurately determined by the determination process based on the variation 2 described with reference to FIG.

グラフ60bに示す各軌跡は、通常の会話状況に対する典型的な軌跡を示す実験結果である。グラフ60bに示す各軌跡のうち、軌跡の大部分が、領域62bに含まれ、領域62aに含まれる軌跡は存在しない。このため、会話が通常の会話状況であることを判定できる。たとえば、図9で説明したバリエーション2に基づく判定処理により、正確に判定できる。 Each locus shown in the graph 60b is an experimental result showing a typical locus with respect to a normal conversation situation. Of the loci shown in the graph 60b, most of the loci are included in the region 62b, and there is no locus included in the region 62a. Therefore, it can be determined that the conversation is a normal conversation situation. For example, it can be accurately determined by the determination process based on the variation 2 described with reference to FIG.

グラフ60cに示す各軌跡は、異常な会話状況に対する軌跡の実験結果である。全ての軌跡が、会話終了時において、閾値55を下回っているので、参考技術1に基づく判定では、異常な会話状況であることを判定できない。これに対して、本実施例1に係る判定部130fによれば、会話の開始時刻から終了時刻までの軌跡は、領域63bに含まれていないので、会話が異常な会話状況であることを判定できる。たとえば、図9で説明したバリエーション2に基づく判定処理により、正確に判定できる。 Each locus shown in the graph 60c is an experimental result of the locus for an abnormal conversation situation. Since all the loci are below the threshold value 55 at the end of the conversation, it cannot be determined that the conversation situation is abnormal by the determination based on the reference technique 1. On the other hand, according to the determination unit 130f according to the first embodiment, since the locus from the start time to the end time of the conversation is not included in the area 63b, it is determined that the conversation is in an abnormal conversation situation. can. For example, it can be accurately determined by the determination process based on the variation 2 described with reference to FIG.

ところで、会話の開始直後は、特徴量の値が安定しないため、モデル情報120bに特徴量を出力した際に得られる出力値が安定しない場合がある。このため、会話時間管理部130dは、会話の開始時刻を受け付けたから、所定時間を経過するまで、「出力制御信号」を、ストレス評価値算出部135、認識結果蓄積部137、会話時間算出部138、出力値算出部130eに出力する処理を抑止してもよい。これによって、判定部130fは、安定した出力値を用いて、会話状況を判定することができる。 By the way, since the value of the feature amount is not stable immediately after the start of the conversation, the output value obtained when the feature amount is output to the model information 120b may not be stable. Therefore, the conversation time management unit 130d uses the stress evaluation value calculation unit 135, the recognition result storage unit 137, and the conversation time calculation unit 138 for the "output control signal" from the reception of the conversation start time until the predetermined time elapses. , The process of outputting to the output value calculation unit 130e may be suppressed. As a result, the determination unit 130f can determine the conversation status using a stable output value.

図15は、会話時間管理部のその他の処理を説明するための図である。図15において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。会話時間管理部130dは、開始時刻0から、所定時間taだけ経過した時点から所定の時間間隔で、「出力制御信号」を、ストレス評価値算出部135、認識結果蓄積部137、会話時間算出部138、出力値算出部130eに出力する。これにより、判定部130fは、時刻ta以降の安定した出力値を基にして、会話状況を判定できる。図15に示す閾値50,51、軌跡31a~31cに関する説明は、図9の説明と同様である。 FIG. 15 is a diagram for explaining other processes of the conversation time management unit. In FIG. 15, the vertical axis corresponds to the output value, and the horizontal axis corresponds to the conversation time. The conversation time management unit 130d outputs the "output control signal" to the stress evaluation value calculation unit 135, the recognition result storage unit 137, and the conversation time calculation unit at predetermined time intervals from the time when a predetermined time ta has elapsed from the start time 0. 138, output to the output value calculation unit 130e. As a result, the determination unit 130f can determine the conversation status based on the stable output value after the time ta. The description of the threshold values 50 and 51 and the loci 31a to 31c shown in FIG. 15 is the same as that of FIG.

本実施例2に係る音声処理装置の説明を行う前に、オペレータと顧客との会話が異常な会話状況であるか否かを判定する参考技術2について説明する。この参考技術2は、従来技術ではない。会話の開始時刻から所定時間間隔で音声情報を区切り、区切った各音声情報から得られる特徴量をモデル情報に入力して、出力値を算出する。 Before explaining the voice processing device according to the second embodiment, the reference technique 2 for determining whether or not the conversation between the operator and the customer is an abnormal conversation situation will be described. This reference technique 2 is not a conventional technique. The voice information is divided at predetermined time intervals from the start time of the conversation, and the feature amount obtained from each divided voice information is input to the model information to calculate the output value.

図16は、参考技術2の処理を説明するための図である。図16に示すように、参考技術2は、音声情報を複数の音声情報12a~12kに区切る。参考技術は、各音声情報12a~12kの区間内で算出した各特徴量をそれぞれモデルに入力することで、出力値11a~11kを算出する。特徴量を入力するモデルは、実施例1で説明したモデル情報120bに対応する。このように、音声情報を所定時間毎に区切って、出力値11a~11kを算出すると、図16に示すように、各出力値が安定しないため、会話状況を精度よく判定できない場合がある。 FIG. 16 is a diagram for explaining the process of Reference Technique 2. As shown in FIG. 16, the reference technique 2 divides the voice information into a plurality of voice information 12a to 12k. The reference technique calculates the output values 11a to 11k by inputting each feature amount calculated in the section of each voice information 12a to 12k into the model. The model for inputting the feature amount corresponds to the model information 120b described in the first embodiment. In this way, when the voice information is divided into predetermined time intervals and the output values 11a to 11k are calculated, as shown in FIG. 16, since each output value is not stable, it may not be possible to accurately determine the conversation situation.

次に、本実施例2に係る音声処理装置の処理の一例について説明する。図17は、本実施例2に係る音声処理装置の処理を説明するための図である。図17の横軸は会話時間に対応する軸であり、縦軸は出力値に対応する軸である。たとえば、音声処理装置は、音声情報を30秒毎に分割し、分割した各音声情報の特徴量をモデル情報に入力して、各出力値11a~11nを得る。分割した各音声情報は、分割音声情報の一例である。また、音声処理装置は、開始時刻から現在時刻までの音声情報の特徴量をモデル情報に入力して、出力値(図示略)を得る。音声処理装置は、リアルタイムに、会話状況を判定する。現在の時刻を「Tc」とする。 Next, an example of processing of the voice processing device according to the second embodiment will be described. FIG. 17 is a diagram for explaining the processing of the voice processing device according to the second embodiment. The horizontal axis of FIG. 17 is the axis corresponding to the conversation time, and the vertical axis is the axis corresponding to the output value. For example, the voice processing device divides the voice information every 30 seconds, inputs the feature amount of each divided voice information into the model information, and obtains each output value 11a to 11n. Each divided voice information is an example of the divided voice information. Further, the voice processing device inputs the feature amount of the voice information from the start time to the current time into the model information, and obtains an output value (not shown). The voice processing device determines the conversation status in real time. Let the current time be "Tc".

音声処理装置は、開始時刻から現在時刻Tcまでの各出力値の平均値と、現在時刻Tcから所定時間前(たとえば、5分前)までに含まれる各出力値の最小値と、開始時刻から現在時刻Tcまでの出力値とを基にして、会話状況を判定する。 The voice processing device uses the average value of each output value from the start time to the current time Tc, the minimum value of each output value included within a predetermined time (for example, 5 minutes before) from the current time Tc, and the start time. The conversation status is determined based on the output value up to the current time Tc.

図17に示す例において、開始時刻から現在時刻Tcまでの各出力値の平均値は、時間帯B1に含まれる各出力値11a~11nの平均値である。現在時刻Tcから所定時間前までに含まれる各出力値の最小値は、時間帯B2に含まれる出力値11c~11nの最小値である。現在時刻Tcの出力値は、時刻0~時刻Tcまでの区間における音声情報の特徴量をモデルに入力することで得られる出力値である。 In the example shown in FIG. 17, the average value of each output value from the start time to the current time Tc is the average value of each output value 11a to 11n included in the time zone B1. The minimum value of each output value included from the current time Tc to a predetermined time before is the minimum value of the output values 11c to 11n included in the time zone B2. The output value of the current time Tc is an output value obtained by inputting the feature amount of the voice information in the section from the time 0 to the time Tc into the model.

本実施例2に係る音声処理装置は、「条件2および条件1を満たす場合」、または、「条件2および条件3を満たす場合」に、会話が異常な会話状況であると判定する。条件1~3に含まれるTh1~Th3は予め設定される閾値である。各閾値の大小関係は、Th3>Th1>Th2である。 The voice processing device according to the second embodiment determines that the conversation is in an abnormal conversation situation when "condition 2 and condition 1 are satisfied" or "condition 2 and condition 3 are satisfied". Th1 to Th3 included in the conditions 1 to 3 are preset threshold values. The magnitude relationship of each threshold value is Th3> Th1> Th2.

条件1:開始時刻から現在時刻Tcまでの各出力値の平均値>Th1
条件2:現在時刻Tcから所定時間前までに含まれる各出力値の最小値>Th2
条件3:開始時刻から現在時刻Tcの出力値>Th3
Condition 1: Mean value of each output value from the start time to the current time Tc> Th1
Condition 2: Minimum value of each output value included from the current time Tc to a predetermined time before> Th2
Condition 3: Output value of current time Tc from start time> Th3

本実施例2に係る音声処理装置は、出力値が安定しない場合であっても、上記の条件1~3を用いて、会話状況が異常であるか否かを判定することで、会話状況を精度よく判定することができる。 The voice processing device according to the second embodiment determines the conversation status by using the above conditions 1 to 3 to determine whether or not the conversation status is abnormal even when the output value is not stable. It can be judged accurately.

図18は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。図18に示すように、この音声処理装置200は、通信部210、記憶部220、制御部230を有する。 FIG. 18 is a functional block diagram showing the configuration of the voice processing device according to the second embodiment. As shown in FIG. 18, the voice processing device 200 has a communication unit 210, a storage unit 220, and a control unit 230.

通信部210は、ネットワークを介して外部の装置とデータ通信を実行する処理部である。たとえば、通信部210は、顧客とオペレータとの会話を含む音声情報を収集するサーバ装置(図示略)から、音声情報を受信する。通信部210は、受信した音声情報を制御部230に出力する。通信部210は、通信装置の一例である。 The communication unit 210 is a processing unit that executes data communication with an external device via a network. For example, the communication unit 210 receives voice information from a server device (not shown) that collects voice information including a conversation between a customer and an operator. The communication unit 210 outputs the received voice information to the control unit 230. The communication unit 210 is an example of a communication device.

記憶部220は、音声バッファ220aと、モデル情報220bと、出力値蓄積バッファ220cとを有する。記憶部220は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。 The storage unit 220 has a voice buffer 220a, model information 220b, and an output value storage buffer 220c. The storage unit 220 corresponds to a semiconductor memory element such as RAM, ROM, and flash memory, and a storage device such as an HDD.

音声バッファ220aは、顧客とオペレータとの会話の音声情報を記憶するバッファである。「モデルを学習する処理」を音声処理装置200が行う場合には、音声バッファ220aには、学習用の音声情報が蓄積される。これに対して、「会話状況を判定する処理」を音声処理装置200が行う場合には、音声バッファ220aには、判定対象となる音声情報が蓄積される。 The voice buffer 220a is a buffer for storing voice information of a conversation between a customer and an operator. When the voice processing device 200 performs the "process for learning the model", the voice information for learning is stored in the voice buffer 220a. On the other hand, when the voice processing device 200 performs the "processing for determining the conversation status", the voice information to be determined is accumulated in the voice buffer 220a.

モデル情報220bは、音声情報に含まれる会話が、異常な会話状況である度合いを示す出力値を出力するモデルの情報である。モデル情報220bに関するその他の説明は、実施例1で説明したモデル情報120bに関する説明と同様である。 The model information 220b is information on a model that outputs an output value indicating the degree to which the conversation included in the voice information is an abnormal conversation situation. The other description of the model information 220b is the same as the description of the model information 120b described in the first embodiment.

出力値蓄積バッファ220cは、モデル情報220bを基に出力される出力値を格納するバッファである。図19は、本実施例2に係る出力値蓄積バッファのデータ構造の一例を示す図である。図19に示すように出力値蓄積バッファ220cは、テーブル221a,221bを有する。 The output value storage buffer 220c is a buffer for storing the output value output based on the model information 220b. FIG. 19 is a diagram showing an example of the data structure of the output value storage buffer according to the second embodiment. As shown in FIG. 19, the output value storage buffer 220c has tables 221a and 221b.

テーブル221aは、時間と、出力値とを対応付ける。テーブル221aにおける時間は、特徴量を抽出した音声情報の時間を示すものである。出力値は、該当する時間の音声情報から抽出された特徴量をモデル情報220bに入力した際に得られる出力値Vを示す。 Table 221a associates the time with the output value. The time in the table 221a indicates the time of the voice information from which the feature amount is extracted. The output value indicates the output value V obtained when the feature amount extracted from the voice information at the corresponding time is input to the model information 220b.

テーブル221bは、時間と、出力値とを対応付ける。テーブル221bにおける時間は、特徴量を抽出した音声情報の時間(会話の開始時刻からの経過時間)を示すものである。出力値は、該当する時間の音声情報から算出された特徴量を、モデル情報220bに入力した際に得られる出力値Vを示す。 Table 221b associates the time with the output value. The time in the table 221b indicates the time of the voice information from which the feature amount is extracted (the elapsed time from the start time of the conversation). The output value indicates the output value V obtained when the feature amount calculated from the voice information at the corresponding time is input to the model information 220b.

図18の説明に戻る。制御部230は、取得部230aと、特徴量算出部230bと、モデル学習部230cと、会話時間管理部230dと、出力値算出部230eと、判定部230fとを有する。制御部230は、CPUやMPUなどによって実現できる。また、制御部230は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。 Returning to the description of FIG. The control unit 230 includes an acquisition unit 230a, a feature amount calculation unit 230b, a model learning unit 230c, a conversation time management unit 230d, an output value calculation unit 230e, and a determination unit 230f. The control unit 230 can be realized by a CPU, an MPU, or the like. Further, the control unit 230 can also be realized by hard-wired logic such as ASIC or FPGA.

取得部230aは、音声情報を取得し、取得した音声情報を音声バッファ220aに格納する処理部である。たとえば、「モデルを学習する処理」を音声処理装置200が行う場合には、取得部230aは、学習用の音声情報を取得し、学習用の音声情報を音声バッファ220aに格納する。「会話状況を判定する処理」を音声処理装置200が行う場合には、取得部230aは、判定対象となる音声情報を取得し、音声情報を音声バッファ220aに格納する。 The acquisition unit 230a is a processing unit that acquires voice information and stores the acquired voice information in the voice buffer 220a. For example, when the voice processing device 200 performs the "process for learning a model", the acquisition unit 230a acquires the voice information for learning and stores the voice information for learning in the voice buffer 220a. When the voice processing device 200 performs the "processing for determining the conversation status", the acquisition unit 230a acquires the voice information to be determined and stores the voice information in the voice buffer 220a.

特徴量算出部230bは、音声バッファ220aに格納された音声情報を基にして、特徴量を算出する処理部である。たとえば、特徴量算出部230bが算出する特徴量は、ストレス評価値、キーワードの検出回数、会話の開始時刻からの経過時間である。ストレス評価値、検出回数、経過時間に関する説明は後述する。 The feature amount calculation unit 230b is a processing unit that calculates the feature amount based on the voice information stored in the voice buffer 220a. For example, the feature amount calculated by the feature amount calculation unit 230b is a stress evaluation value, the number of times a keyword is detected, and the elapsed time from the start time of conversation. The stress evaluation value, the number of detections, and the elapsed time will be described later.

「モデルを学習する処理」を音声処理装置200が行う場合には、特徴量算出部230bは、特徴量をモデル学習部230cに出力する。「会話状況を判定する処理」を音声処理装置200が行う場合には、特徴量算出部230bは、特徴量を、出力値算出部230eに出力する。 When the voice processing device 200 performs the "process for learning the model", the feature amount calculation unit 230b outputs the feature amount to the model learning unit 230c. When the voice processing device 200 performs the "processing for determining the conversation status", the feature amount calculation unit 230b outputs the feature amount to the output value calculation unit 230e.

図20は、本実施例2に係る特徴量算出部の構成を示す機能ブロック図である。図20に示すように、この特徴量算出部230bは、音声取得部231aと、フレーム処理部231bと、ピッチ抽出部232と、パワー算出部233と、ピッチ・パワー蓄積部234と、ストレス評価値算出部235とを有する。また、特徴量算出部230bは、音声認識部236と、認識結果蓄積部237と、会話時間算出部238とを有する。 FIG. 20 is a functional block diagram showing the configuration of the feature amount calculation unit according to the second embodiment. As shown in FIG. 20, the feature amount calculation unit 230b includes a voice acquisition unit 231a, a frame processing unit 231b, a pitch extraction unit 232, a power calculation unit 233, a pitch power storage unit 234, and a stress evaluation value. It has a calculation unit 235. Further, the feature amount calculation unit 230b has a voice recognition unit 236, a recognition result storage unit 237, and a conversation time calculation unit 238.

音声取得部231aは、音声バッファ220aに格納された音声情報を取得し、読み込んだ音声情報を、フレーム処理部231bに出力する。以下の説明では、音声取得部231aにより読み込まれたデジタル信号の音声情報を、単に、「音声情報」と表記する。 The voice acquisition unit 231a acquires the voice information stored in the voice buffer 220a and outputs the read voice information to the frame processing unit 231b. In the following description, the voice information of the digital signal read by the voice acquisition unit 231a is simply referred to as "voice information".

フレーム処理部231bは、音声取得部231aから取得する音声情報の信号時系列を、予め定められたサンプル数毎に「フレーム」として取り出し、フレームの情報を、ピッチ抽出部232、パワー算出部233、音声認識部236に出力する。フレーム処理部231bの処理は、実施例1のフレーム処理部131bの処理に対応する。 The frame processing unit 231b takes out the signal time series of the voice information acquired from the voice acquisition unit 231a as a "frame" for each predetermined number of samples, and extracts the frame information from the pitch extraction unit 232 and the power calculation unit 233. It is output to the voice recognition unit 236. The processing of the frame processing unit 231b corresponds to the processing of the frame processing unit 131b of the first embodiment.

ピッチ抽出部232は、フレームのサンプル値を基にして、フレームの基本周波数(ピッチ)を抽出する処理部である。ピッチ抽出部232は、フレーム毎のピッチの情報を、ピッチ・パワー蓄積部234に蓄積する。ピッチ抽出部232の処理は、実施例1のピッチ抽出部132の処理に対応する。 The pitch extraction unit 232 is a processing unit that extracts the fundamental frequency (pitch) of the frame based on the sample value of the frame. The pitch extraction unit 232 stores pitch information for each frame in the pitch power storage unit 234. The processing of the pitch extraction unit 232 corresponds to the processing of the pitch extraction unit 132 of the first embodiment.

パワー算出部233は、フレームのサンプル値を基にして、フレームのパワーを算出する処理部である。パワー算出部233は、フレーム毎のパワーの情報を、ピッチ・パワー蓄積部234に蓄積する。パワー算出部233の処理は、実施例1のパワー算出部133の処理に対応する。 The power calculation unit 233 is a processing unit that calculates the power of the frame based on the sample value of the frame. The power calculation unit 233 stores power information for each frame in the pitch power storage unit 234. The processing of the power calculation unit 233 corresponds to the processing of the power calculation unit 133 of the first embodiment.

ピッチ・パワー蓄積部234は、ピッチ抽出部232により抽出されたピッチの情報およびパワー算出部233により算出されたパワーの情報を格納するバッファである。ピッチ・パワー蓄積部234のデータ構造は、図6に示したピッチ・パワー蓄積部134のデータ構造と同様である。 The pitch power storage unit 234 is a buffer that stores pitch information extracted by the pitch extraction unit 232 and power information calculated by the power calculation unit 233. The data structure of the pitch power storage unit 234 is the same as the data structure of the pitch power storage unit 134 shown in FIG.

ストレス評価値算出部235は、ピッチ・パワー蓄積部234に格納されたピッチおよびパワーの情報を基にして、設定時刻毎にストレス評価値を算出する処理部である。たとえば、ストレス評価値算出部235は、ストレス評価値算出部135と同様に、ストレス評価値を算出する。 The stress evaluation value calculation unit 235 is a processing unit that calculates the stress evaluation value for each set time based on the pitch and power information stored in the pitch power storage unit 234. For example, the stress evaluation value calculation unit 235 calculates the stress evaluation value in the same manner as the stress evaluation value calculation unit 135.

ストレス評価値算出部235は、音声処理装置200が「会話状況を判定する処理」を行う場合には、次の処理を行う。ストレス評価値算出部235は、会話の開始時刻から、出力制御信号を受信した時刻までに蓄積されたピッチ・パワーの組のサンプルを用いて、混合ガウス分布を最尤推定によりモデル化し、推定に用いたサンプルに対するモデルの平均対数尤度にマイナス1を掛けたものを、ストレス評価値として算出し、算出したストレス評価値を、第1ストレス値として、出力値算出部130eに出力する。「出力制御信号」は、会話時間管理部230dから出力される信号である。 When the voice processing device 200 performs the "processing for determining the conversation status", the stress evaluation value calculation unit 235 performs the following processing. The stress evaluation value calculation unit 235 models and estimates the mixed Gaussian distribution by maximum likelihood estimation using a sample of a set of pitch powers accumulated from the start time of the conversation to the time when the output control signal is received. The average log-likelihood of the model for the sample used is multiplied by -1 to calculate as a stress evaluation value, and the calculated stress evaluation value is output to the output value calculation unit 130e as the first stress value. The “output control signal” is a signal output from the conversation time management unit 230d.

また、ストレス評価値算出部235は、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻までに蓄積されたピッチ・パワーの組のサンプルを用いて、混合ガウス分布を最尤推定によりモデル化し、推定に用いたサンプルに対するモデルの平均対数尤度にマイナス1を掛けたものをストレス評価値として算出し、算出したストレス評価値を、第2ストレス値として、出力値算出部230eに出力する。 Further, the stress evaluation value calculation unit 235 uses a sample of a set of pitch powers accumulated from the time when the output control signal was received last time to the time when the output control signal is received this time to maximum likelihood the mixed Gaussian distribution. Modeled by estimation, the average log-likelihood of the model for the sample used for estimation multiplied by -1 is calculated as the stress evaluation value, and the calculated stress evaluation value is used as the second stress value in the output value calculation unit 230e. Output to.

音声認識部236は、たとえば、ワードスポッティング型の音声認識を行うことで、音声情報に所定のキーワードが含まれているか否かを検出する処理部である。音声認識部236は、音声情報から所定のキーワードを検出する度に、所定のキーワードに対応する検出回数に1を加算する処理を行う。音声認識部236は、所定のキーワードと、検出回数とを対応付けた情報を、認識結果蓄積部237に蓄積する。所定のキーワードは、顧客が不満を感じた場合や、怒っている際によく発言するキーワードである。 The voice recognition unit 236 is a processing unit that detects whether or not a predetermined keyword is included in the voice information by, for example, performing word spotting type voice recognition. The voice recognition unit 236 performs a process of adding 1 to the number of detections corresponding to the predetermined keyword each time the predetermined keyword is detected from the voice information. The voice recognition unit 236 stores information in which a predetermined keyword is associated with the number of detections in the recognition result storage unit 237. A predetermined keyword is a keyword that is often spoken when a customer is dissatisfied or angry.

たとえば、音声認識部236は、「第1検出回数」と、「第2検出回数」とを区別して、認識結果蓄積部237に蓄積する。第1検出回数は、会話の開始時刻から、出力制御信号を受信した時刻までの音声区間において検出した所定のキーワードの検出回数を示す。第2検出回数は、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻までの音声区間において検出した所定のキーワードの検出回数を示す。 For example, the voice recognition unit 236 distinguishes between the "first detection number" and the "second detection number" and stores them in the recognition result storage unit 237. The first detection number indicates the number of detections of a predetermined keyword detected in the voice section from the start time of the conversation to the time when the output control signal is received. The second number of detections indicates the number of detections of a predetermined keyword detected in the voice section from the time when the previous output control signal was received to the time when the output control signal was received this time.

また、音声認識部236は、音声認識を行うための音声区間検出処理を開始し、音声区間を検出した際の時間情報を、会話時間算出部238に出力する。 Further, the voice recognition unit 236 starts the voice section detection process for performing voice recognition, and outputs the time information when the voice section is detected to the conversation time calculation unit 238.

認識結果蓄積部237は、音声認識部236により検出された各キーワード(所定のキーワード)の検出回数の情報(第1検出回数、第2検出回数の情報)を保持する。図21は、本実施例2に係る検出回数情報のデータ構造の一例を示す図である。図21に示すように、検出回数情報237aは、テーブル237bとテーブル237cとを有する。 The recognition result storage unit 237 holds information on the number of detections (information on the number of first detections and the number of second detections) of each keyword (predetermined keyword) detected by the voice recognition unit 236. FIG. 21 is a diagram showing an example of a data structure of detection frequency information according to the second embodiment. As shown in FIG. 21, the detection number information 237a has a table 237b and a table 237c.

テーブル237bは、キーワードと第1検出回数とを対応付ける。第1検出回数は、会話の開始時刻から、出力制御信号を受信した時刻までの音声区間において検出した所定のキーワードの検出回数を示す。 Table 237b associates the keyword with the number of first detections. The first detection number indicates the number of detections of a predetermined keyword detected in the voice section from the start time of the conversation to the time when the output control signal is received.

テーブル237cは、時間と、キーワードと、第2検出回数とを対応付ける。時間は、各出力制御信号を受信した時間間隔を示す。第2検出回数は、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻までの音声区間において検出した所定のキーワードの検出回数を示す。 Table 237c associates the time with the keyword and the second detection count. Time indicates the time interval at which each output control signal is received. The second number of detections indicates the number of detections of a predetermined keyword detected in the voice section from the time when the previous output control signal was received to the time when the output control signal was received this time.

認識結果蓄積部237は、音声処理装置200が「モデルを学習する処理」を行う場合には、次の処理を行う。認識結果蓄積部237は、会話の開始時刻から、会話の終了時刻におけるテーブル237bの情報を、モデル学習部230cに出力する。 When the voice processing device 200 performs the "process for learning the model", the recognition result accumulating unit 237 performs the following processing. The recognition result storage unit 237 outputs the information of the table 237b at the end time of the conversation from the start time of the conversation to the model learning unit 230c.

認識結果蓄積部237は、音声処理装置200が「会話状況を判定する処理」を行う場合には、次の処理を行う。認識結果蓄積部237は、会話の開始時刻から、出力制御信号を受信した時刻までのテーブル237bの情報を、出力値算出部230eに出力する。また、認識結果蓄積部237は、テーブル237cのレコードのうち、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻に対応する時刻に対応する時間のレコードを、出力値算出部230eに出力する。たとえば、前回出力制御信号を受信した時刻を「t」、今回出力制御信号を受信した時刻を「t」とすると、認識結果蓄積部237は、テーブル237cのレコードのうち、時間「t~t」に対応するレコードを、出力値算出部230eに出力する。 When the voice processing device 200 performs the "processing for determining the conversation status", the recognition result accumulating unit 237 performs the following processing. The recognition result storage unit 237 outputs the information of the table 237b from the start time of the conversation to the time when the output control signal is received to the output value calculation unit 230e. Further, the recognition result storage unit 237 records the record of the time corresponding to the time corresponding to the time when the output control signal is received this time from the time when the previous output control signal was received among the records in the table 237c to the output value calculation unit. Output to 230e. For example, assuming that the time when the output control signal was received last time is "t 1 " and the time when the output control signal is received this time is "t 2 ", the recognition result storage unit 237 has the time "t 1 " among the records in the table 237c. The record corresponding to "~ t 2 " is output to the output value calculation unit 230e.

会話時間算出部238は、会話の開始時刻からの会話の経過時間を計算する処理部である。たとえば、会話時間算出部238は、図示しないタイマから時間情報を取得し、会話の開始時刻からの経過時間を計測する。会話時間算出部238は、各フレームに含まれるサンプル数の累計を基にして、経過時間を推定してもよい。会話時間算出部238は、開始時刻と、開始時刻からの経過時間との情報を、会話時間管理部230dに出力する。 The conversation time calculation unit 238 is a processing unit that calculates the elapsed time of the conversation from the start time of the conversation. For example, the conversation time calculation unit 238 acquires time information from a timer (not shown) and measures the elapsed time from the start time of the conversation. The conversation time calculation unit 238 may estimate the elapsed time based on the cumulative number of samples included in each frame. The conversation time calculation unit 238 outputs information on the start time and the elapsed time from the start time to the conversation time management unit 230d.

会話時間算出部238は、音声処理装置200が「モデルを学習する処理」を行う場合には、次の処理を行う。会話時間算出部238は、会話の開始時刻から、会話の終了時刻までの経過時間の情報を、モデル学習部230cに出力する。 When the voice processing device 200 performs the "process for learning the model", the conversation time calculation unit 238 performs the following processing. The conversation time calculation unit 238 outputs information on the elapsed time from the conversation start time to the conversation end time to the model learning unit 230c.

会話時間算出部238は、音声処理装置200が「会話状況を判定する処理」を行う場合には、次の処理を行う。会話時間算出部238は、会話の開始時刻から、出力制御信号を受信した時刻までの経過時間の情報を、出力値算出部230eに出力する。また、会話時間算出部238は、前回出力制御信号を受け付けた時刻から、今回出力信号を受け付けた時刻までの時間間隔の情報を、出力値算出部230eに出力する。 When the voice processing device 200 performs the "processing for determining the conversation status", the conversation time calculation unit 238 performs the following processing. The conversation time calculation unit 238 outputs information on the elapsed time from the conversation start time to the time when the output control signal is received to the output value calculation unit 230e. Further, the conversation time calculation unit 238 outputs the information of the time interval from the time when the previous output control signal is received to the time when the output signal is received this time to the output value calculation unit 230e.

図18の説明に戻る。モデル学習部230cは、学習用の音声情報から算出された特徴量を用いて、モデル情報220bを生成(学習)する処理部である。モデル学習部230cが、モデル情報220bを生成する処理は、実施例1で説明したモデル学習部130cの処理に対応する。 Returning to the description of FIG. The model learning unit 230c is a processing unit that generates (learns) model information 220b using a feature amount calculated from voice information for learning. The process of generating the model information 220b by the model learning unit 230c corresponds to the process of the model learning unit 130c described in the first embodiment.

会話時間管理部230dは、会話時間算出部238から、会話の開始時刻と、会話の開始時刻からの経過時間とを取得し、予め指定された時間Tを経過したか否かを判定する。会話時間管理部230dは、時間Tを経過する度に、「出力制御信号」を、ストレス評価値算出部235、音声認識部236、認識結果蓄積部237、会話時間算出部238、出力値算出部230eに出力する。 The conversation time management unit 230d acquires the conversation start time and the elapsed time from the conversation start time from the conversation time calculation unit 238, and determines whether or not the predetermined time T has elapsed. The conversation time management unit 230d outputs the "output control signal" to the stress evaluation value calculation unit 235, the voice recognition unit 236, the recognition result storage unit 237, the conversation time calculation unit 238, and the output value calculation unit each time the time T elapses. Output to 230e.

会話時間管理部230dは、会話時間算出部238から、会話の終了時刻の情報を受け付けた場合には、会話の終了時刻の情報を、判定部230fに出力する。 When the conversation time management unit 230d receives the information on the end time of the conversation from the conversation time calculation unit 238, the conversation time management unit 230d outputs the information on the end time of the conversation to the determination unit 230f.

出力値算出部230eは、特徴量算出部230bから取得する特徴量と、モデル情報220bとを基にして、出力値を算出する処理部である。出力値算出部230eは、算出した出力値を、出力値蓄積バッファ220cに蓄積する。 The output value calculation unit 230e is a processing unit that calculates an output value based on the feature amount acquired from the feature amount calculation unit 230b and the model information 220b. The output value calculation unit 230e stores the calculated output value in the output value storage buffer 220c.

たとえば、出力値算出部230eは、会話時間管理部230dから出力制御信号を取得したタイミングで、特徴量算出部230bから特徴量を取得する。この特徴量には、第1特徴量と、第2特徴量とが含まれる。 For example, the output value calculation unit 230e acquires the feature amount from the feature amount calculation unit 230b at the timing when the output control signal is acquired from the conversation time management unit 230d. This feature amount includes a first feature amount and a second feature amount.

第1特徴量は、会話の開始時刻から、今回出力制御信号を受信した時刻までの音声情報を基にして抽出される特徴量である。第1特徴量は、第1ストレス評価値、第1検出回数の情報、会話の開始時刻から、今回出力制御信号を受信した時刻までの経過時間の情報を含む。 The first feature amount is a feature amount extracted based on the voice information from the start time of the conversation to the time when the output control signal is received this time. The first feature amount includes the first stress evaluation value, the information of the first detection number, and the information of the elapsed time from the start time of the conversation to the time when the output control signal is received this time.

出力値算出部230eは、会話時間管理部230dから出力制御信号を取得したタイミングで、特徴量算出部230bから第1特徴量を取得し、取得した第1特徴量をモデル情報220bの入力層20aに入力する。出力値算出部230eは、特徴量をモデル情報220bの入力層20aに入力した際に、出力層20cから出力される確率「Ot」と、確率「On」との値を取得し、式(1)~式(3)を基にして、出力値Vを算出する。出力値算出部230eは、第1特徴量から算出した出力値Vの情報を、テーブル221bに登録する。 The output value calculation unit 230e acquires the first feature amount from the feature amount calculation unit 230b at the timing when the output control signal is acquired from the conversation time management unit 230d, and the acquired first feature amount is used as the input layer 20a of the model information 220b. Enter in. When the feature amount is input to the input layer 20a of the model information 220b, the output value calculation unit 230e acquires the values of the probability “Ot” and the probability “On” output from the output layer 20c, and obtains the values of the equation (1). )-Equation (3) is used to calculate the output value V. The output value calculation unit 230e registers the information of the output value V calculated from the first feature amount in the table 221b.

出力値算出部230eは、会話時間管理部230dから出力制御信号を取得する度に、上記の処理を繰り返し実行することで、各経過時間の第1特徴量に対応する出力値Vを順次算出し、算出した出力値Vの情報を、テーブル221bに格納して更新する。 Each time the output value calculation unit 230e acquires an output control signal from the conversation time management unit 230d, the output value calculation unit 230e repeatedly executes the above processing to sequentially calculate the output value V corresponding to the first feature amount of each elapsed time. , The calculated output value V information is stored in the table 221b and updated.

一方、第2特徴量は、前回出力制御信号を受信した時刻から、今回出力制御信号を受信した時刻までの区間における音声情報を基にして抽出される特徴量である。第2特徴量は、第2ストレス評価値、第2検出回数の情報、前回出力制御信号を受信した時刻から、今回出力制御信号を受信した時刻までの経過時間の情報を含む。 On the other hand, the second feature amount is a feature amount extracted based on the voice information in the section from the time when the previous output control signal is received to the time when the output control signal is received this time. The second feature amount includes a second stress evaluation value, information on the number of second detections, and information on the elapsed time from the time when the previous output control signal was received to the time when the output control signal was received this time.

出力値算出部230eは、会話時間管理部230dから出力制御信号を取得したタイミングで、特徴量算出部230bから第2特徴量を取得し、取得した第2特徴量をモデル情報220bの入力層20aに入力する。出力値算出部230eは、特徴量をモデル情報220bの入力層20aに入力した際に、出力層20cから出力される確率「Ot」と、確率「On」との値を取得し、式(1)~式(3)を基にして、出力値Vを算出する。出力値算出部230eは、第2特徴量から算出した出力値Vの情報を、該当する時間に対応付けて、テーブル221aに登録する。 The output value calculation unit 230e acquires the second feature amount from the feature amount calculation unit 230b at the timing when the output control signal is acquired from the conversation time management unit 230d, and the acquired second feature amount is used as the input layer 20a of the model information 220b. Enter in. When the feature amount is input to the input layer 20a of the model information 220b, the output value calculation unit 230e acquires the values of the probability “Ot” and the probability “On” output from the output layer 20c, and obtains the values of the equation (1). )-Equation (3) is used to calculate the output value V. The output value calculation unit 230e registers the information of the output value V calculated from the second feature amount in the table 221a in association with the corresponding time.

たとえば、出力値算出部230eは、時間「t~t」の音声情報から抽出された第2特徴量から、出力値Vを算出した場合には、時間「t~t」と、出力値Vとを対応付けて、テーブル221aに登録する。 For example, when the output value calculation unit 230e calculates the output value V 2 from the second feature amount extracted from the voice information of the time "t 1 to t 2 ", the output value calculation unit 230e sets the time as "t 1 to t 2 ". , And the output value V2 are associated with each other and registered in the table 221a.

出力値算出部230eは、会話時間管理部230dから出力制御信号を取得する度に、上記の処理を繰り返し実行することで、各時間間隔の第2特徴量に対応する出力値Vを順次算出し、算出した出力値Vの情報を、テーブル221aに格納する。 Each time the output value calculation unit 230e acquires an output control signal from the conversation time management unit 230d, the output value calculation unit 230e repeatedly executes the above processing to sequentially calculate the output value V corresponding to the second feature amount of each time interval. , The calculated output value V information is stored in the table 221a.

判定部230fは、出力値蓄積バッファ220cに格納された出力値の情報を基にして、会話が異常な会話状況であるのか、通常の会話状況であるのかを判定する処理部である。判定部130fは、上述した条件1~3で用いる各値を算出し、会話状況が異常であるか否かを判定する。 The determination unit 230f is a processing unit that determines whether the conversation is in an abnormal conversation situation or a normal conversation situation based on the information of the output value stored in the output value storage buffer 220c. The determination unit 130f calculates each value used in the above-mentioned conditions 1 to 3 and determines whether or not the conversation situation is abnormal.

判定部230fが、開始時刻から現在時刻Tcまでの各出力値の平均値を算出する処理について説明する。判定部230fは、図19のテーブル221aに格納された、開始時刻から現在時刻Tcまでの各出力値の平均値を算出する。 The process in which the determination unit 230f calculates the average value of each output value from the start time to the current time Tc will be described. The determination unit 230f calculates the average value of each output value stored in the table 221a of FIG. 19 from the start time to the current time Tc.

判定部230fが、現在時刻Tcから所定時間前までに含まれる各出力値の最小値を算出する処理について説明する。判定部230fは、図19のテーブル221aに格納された各出力値のうち、現在時刻Tcから所定時間前までに含まれる複数の出力値を抽出する。判定部230fは、抽出した複数の出力値のうち、最小の出力値を、最小値として算出する。 A process in which the determination unit 230f calculates the minimum value of each output value included from the current time Tc to a predetermined time before will be described. The determination unit 230f extracts a plurality of output values included in the output values stored in the table 221a of FIG. 19 from the current time Tc to a predetermined time before. The determination unit 230f calculates the minimum output value among the extracted plurality of output values as the minimum value.

判定部230fが、現在時刻Tcの出力値を特定する処理について説明する。判定部230fは、図19のテーブル221bに格納された最新の出力値を、現在時刻Tcの出力値として特定する。 The process of specifying the output value of the current time Tc by the determination unit 230f will be described. The determination unit 230f specifies the latest output value stored in the table 221b of FIG. 19 as the output value of the current time Tc.

判定部230fは、条件1~3で用いる各値を算出し、「条件2および条件1を満たす場合」、または、「条件2および条件3を満たす場合」に、会話が異常な会話状況であると判定する。判定部230fは、「条件2および条件1を満たさない場合」、かつ、「条件2および条件3を満たさない場合」に、会話が通常の会話状況であると判定する。判定部230fは、判定結果を表示装置(図示略)に出力して表示させてもよいし、通信部210を介して、外部装置に通知してもよい。 The determination unit 230f calculates each value used in the conditions 1 to 3, and the conversation is in an abnormal conversation situation in "when the condition 2 and the condition 1 are satisfied" or "when the condition 2 and the condition 3 are satisfied". Is determined. The determination unit 230f determines that the conversation is a normal conversation situation when "condition 2 and condition 1 are not satisfied" and "condition 2 and condition 3 are not satisfied". The determination unit 230f may output the determination result to a display device (not shown) and display it, or may notify the external device via the communication unit 210.

次に、本実施例2に係る音声処理装置200の処理手順の一例について説明する。図22および図23は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。図22に示すように、音声処理装置200の特徴量算出部230bは、フレーム処理を実行して、音声情報からフレームを抽出する(ステップS201)。特徴量算出部230bは、フレームのピッチを抽出し(ステップS202)、パワーを算出する(ステップS203)。 Next, an example of the processing procedure of the voice processing apparatus 200 according to the second embodiment will be described. 22 and 23 are flowcharts showing the processing procedure of the voice processing apparatus according to the second embodiment. As shown in FIG. 22, the feature amount calculation unit 230b of the voice processing device 200 executes frame processing and extracts a frame from the voice information (step S201). The feature amount calculation unit 230b extracts the pitch of the frame (step S202) and calculates the power (step S203).

特徴量算出部230bは、ピッチおよびパワーの値を蓄積し(ステップS204)、ステップS207に移行する。一方、特徴量算出部230bは、音声認識を実行し(ステップS205)、検出回数情報を更新し(ステップS206)、ステップS207に移行する。 The feature amount calculation unit 230b accumulates pitch and power values (step S204), and proceeds to step S207. On the other hand, the feature amount calculation unit 230b executes voice recognition (step S205), updates the detection number information (step S206), and proceeds to step S207.

音声処理装置200の会話時間管理部230dは、出力値を算出する時間であるか否かを判定する(ステップS207)。会話時間管理部230dは、出力値を算出する時間でない場合には(ステップS207,No)、ステップS201に移行する。 The conversation time management unit 230d of the voice processing device 200 determines whether or not it is time to calculate the output value (step S207). If it is not the time to calculate the output value (step S207, No), the conversation time management unit 230d shifts to step S201.

音声処理装置200は、出力値を算出する時間である場合には(ステップS207,Yes)、ストレス評価値を算出し(ステップS208)、ステップS209に移行する。音声処理装置200の出力値算出部230eは、第1特徴量、第2特徴量に基づいて、モデルの出力値を算出し、出力値蓄積バッファ220cに蓄積し(ステップS209)、図23のステップS210に移行する。 When it is time to calculate the output value (step S207, Yes), the voice processing apparatus 200 calculates the stress evaluation value (step S208), and proceeds to step S209. The output value calculation unit 230e of the voice processing device 200 calculates the output value of the model based on the first feature amount and the second feature amount, stores it in the output value storage buffer 220c (step S209), and steps in FIG. 23. Move to S210.

図23の説明に移行する。判定部230fは、条件1~3を満たすための値を算出する(ステップS210)。判定部230fは、会話が異常な会話状況である場合には(ステップS211,Yes)、ステップS214に移行する。 The description shifts to FIG. 23. The determination unit 230f calculates a value for satisfying the conditions 1 to 3 (step S210). When the conversation is in an abnormal conversation situation (steps S211 and Yes), the determination unit 230f shifts to step S214.

一方、判定部230fは、会話が異常な会話状況でない場合には(ステップS211,No)、会話が終了したか否かを判定する(ステップS212)。判定部230fは、会話が終了していない場合には(ステップS212,No)、図22のステップS201に移行する。 On the other hand, if the conversation is not in an abnormal conversation situation (step S211 and No), the determination unit 230f determines whether or not the conversation has ended (step S212). If the conversation is not completed (step S212, No), the determination unit 230f shifts to step S201 in FIG. 22.

判定部230fは、会話が終了した場合には(ステップS212,Yes)、会話が通常の会話状況であると判定する(ステップS213)。判定部230fは、判定結果を出力する(ステップS214)。 When the conversation is completed (step S212, Yes), the determination unit 230f determines that the conversation is in a normal conversation situation (step S213). The determination unit 230f outputs the determination result (step S214).

次に、本実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、開始時刻から現在時刻Tcまでの各出力値の平均値と、現在時刻Tcから所定時間前までに含まれる各出力値の最小値と、現在時刻Tcの出力値とを基にして、会話状況を判定する。これにより、開始時刻から現在時刻Tcまでの音声情報の特徴量に対する出力値に加え、各時間間隔の区間内における音声情報の特徴量に対する出力値の情報も判定に用いることができるため、会話状況を精度よく判定することができる。 Next, the effect of the voice processing device 200 according to the second embodiment will be described. The voice processing device 200 is based on the average value of each output value from the start time to the current time Tc, the minimum value of each output value included from the current time Tc to a predetermined time before, and the output value of the current time Tc. And judge the conversation situation. As a result, in addition to the output value for the feature amount of the voice information from the start time to the current time Tc, the information of the output value for the feature amount of the voice information in the interval of each time interval can be used for the determination. Can be accurately determined.

ところで、上述した実施例2に対する音声処理装置200は、リアルタイムに、会話状況を判定していたが、これに限定されるものではなく、会話が終了した際に、オフライン処理を実行し、会話状況を判定してもよい。以下の説明では、オフライン処理を実行する音声処理装置200を、単に「音声処理装置200」と表記する。 By the way, the voice processing device 200 for the above-described second embodiment determines the conversation status in real time, but the present invention is not limited to this, and when the conversation ends, offline processing is executed and the conversation status is executed. May be determined. In the following description, the voice processing device 200 that executes offline processing is simply referred to as "voice processing device 200".

たとえば、会話が時刻Teに終了した際に、音声処理装置200は、オフライン処理を実行することで、次の3つの軌跡(第1の軌跡、第2の軌跡、第3の軌跡)を求める。 For example, when the conversation ends at time Te, the voice processing device 200 executes offline processing to obtain the following three loci (first locus, second locus, and third locus).

図24Aは、第1の軌跡を説明するための図である。図24Aの横軸は、会話時間に対応する軸であり、縦軸は出力値に対応する軸である。音声処理装置200は、実施例1の音声処理装置100と同様にして、開始時刻から設定時刻毎に、それまでの区間における音声情報の特徴量をモデル情報220bに入力して、出力値を算出する。図24Aに示す例では、終了時刻Teまでに、出力値12a~12rが算出される。音声処理装置200は、出力値12a~12rの最大値を特定する。たとえば、最大値は、12gとなる。第1の軌跡の最大値を「第1最大値」と表記する。 FIG. 24A is a diagram for explaining the first locus. The horizontal axis of FIG. 24A is the axis corresponding to the conversation time, and the vertical axis is the axis corresponding to the output value. Similar to the voice processing device 100 of the first embodiment, the voice processing device 200 inputs the feature amount of the voice information in the section from the start time to the set time into the model information 220b and calculates the output value. do. In the example shown in FIG. 24A, the output values 12a to 12r are calculated by the end time Te. The voice processing device 200 specifies the maximum value of the output values 12a to 12r. For example, the maximum value is 12 g. The maximum value of the first locus is referred to as "first maximum value".

図24Bは、第2の軌跡を説明するための図である。図24Bの横軸は、会話時間に対応する軸であり、縦軸は出力値に対応する軸である。音声処理装置200は、設定時刻毎に区切った音声情報の特徴量(前後設定時刻間の音声情報の特徴量)をモデル情報220bに入力して、出力値を算出する。図24Bに示す例では、終了時刻Teまでに、出力値13a~13rが算出される。音声処理装置200は、出力値13a~13rの最小値を特定する。たとえば、最小値は、13mとなる。第2の軌跡の最小値を「第2最小値」と表記する。 FIG. 24B is a diagram for explaining the second locus. The horizontal axis of FIG. 24B is the axis corresponding to the conversation time, and the vertical axis is the axis corresponding to the output value. The voice processing device 200 inputs the feature amount of the voice information (the feature amount of the voice information between the set time before and after) divided for each set time into the model information 220b, and calculates the output value. In the example shown in FIG. 24B, the output values 13a to 13r are calculated by the end time Te. The voice processing device 200 specifies the minimum value of the output values 13a to 13r. For example, the minimum value is 13 m. The minimum value of the second locus is referred to as "second minimum value".

図24Cは、第3の軌跡を説明するための図である。図24Cの横軸は、会話時間に対応する軸であり、縦軸は出力値に対応する軸である。音声処理装置200は、図24Bと同様にして、設定時刻毎に区切った音声情報の特徴量(前後設定時刻間の音声情報の特徴量)をモデル情報220bに入力して、出力値13a~13rを算出する。そして、音声処理装置200は、設定時刻毎に、開始時刻から設定時刻までに算出された各出力値の平均値14a~14rを算出する。平均値14a~14rが第3の軌跡となる。たとえば、平均値14aは、出力値13aに対応する。平均値14bは、出力値13a,13bの平均値である。平均値14cは、出力値13a~13cの平均値である。平均値14dは、出力値13a~13dの平均値である。平均値14eは、出力値13a~13eの平均値である。 FIG. 24C is a diagram for explaining the third locus. The horizontal axis of FIG. 24C is the axis corresponding to the conversation time, and the vertical axis is the axis corresponding to the output value. In the same manner as in FIG. 24B, the voice processing device 200 inputs the feature amount of voice information (feature amount of voice information between the set time before and after) divided for each set time into the model information 220b, and outputs values 13a to 13r. Is calculated. Then, the voice processing device 200 calculates the average value 14a to 14r of each output value calculated from the start time to the set time for each set time. The average value 14a to 14r is the third locus. For example, the average value 14a corresponds to the output value 13a. The average value 14b is an average value of the output values 13a and 13b. The average value 14c is an average value of the output values 13a to 13c. The average value 14d is an average value of the output values 13a to 13d. The average value 14e is an average value of the output values 13a to 13e.

同様にして、平均値14fは、出力値13a~13fの平均値である。平均値14gは、出力値13a~13gの平均値である。平均値14hは、出力値13a~13hの平均値である。平均値14iは、出力値13a~13iの平均値である。平均値14jは、出力値13a~13jの平均値である。平均値14kは、出力値13a~13kの平均値である。平均値14lは、出力値13a~13lの平均値である。平均値14mは、出力値13a~13mの平均値である。平均値14nは、出力値13a~13nの平均値である。平均値14oは、出力値13a~13oの平均値である。平均値14pは、出力値13a~13pの平均値である。平均値14qは、出力値13a~13qの平均値である。平均値14rは、出力値13a~13rの平均値である。 Similarly, the average value 14f is an average value of the output values 13a to 13f. The average value of 14 g is an average value of output values 13a to 13 g. The average value 14h is an average value of the output values 13a to 13h. The average value 14i is an average value of the output values 13a to 13i. The average value 14j is an average value of the output values 13a to 13j. The average value 14k is an average value of the output values 13a to 13k. The average value 14l is an average value of the output values 13a to 13l. The average value of 14 m is an average value of output values 13a to 13 m. The average value 14n is an average value of the output values 13a to 13n. The average value 14o is an average value of the output values 13a to 13o. The average value 14p is an average value of the output values 13a to 13p. The average value 14q is an average value of the output values 13a to 13q. The average value 14r is an average value of the output values 13a to 13r.

音声処理装置200は、平均値14a~14rの最大値を特定する。たとえば、最大値は、14dとなる。第3の軌跡の最大値を「第3最大値」と表記する。 The voice processing device 200 specifies the maximum value of the average value 14a to 14r. For example, the maximum value is 14d. The maximum value of the third locus is referred to as "third maximum value".

音声処理装置200は、「条件5および条件4を満たす場合」、または、「条件5および条件6を満たす場合」に、会話が異常な会話状況であると判定する。条件4~6に含まれるTh1~Th3は予め設定される閾値である。各閾値の大小関係は、Th1>Th3>Th2である。 The voice processing device 200 determines that the conversation is in an abnormal conversation situation when "when the conditions 5 and 4 are satisfied" or "when the conditions 5 and 6 are satisfied". Th1 to Th3 included in the conditions 4 to 6 are preset threshold values. The magnitude relationship of each threshold value is Th1> Th3> Th2.

条件4:開始時刻から終了時刻Teまでの各出力値を取った軌跡の最大値(第1最大値)>Th1
条件5:開始時刻から終了時刻Teまでに含まれる各出力値の最小値(第2最小値)>Th2
条件6:開始時刻から終了時刻Teまで、時間間隔ごとにそれまでの出力値を平均化した軌跡の最大値(第3最大値)>Th3
Condition 4: Maximum value of the locus (first maximum value) of each output value from the start time to the end time Te> Th1
Condition 5: Minimum value (second minimum value) of each output value included from the start time to the end time Te> Th2
Condition 6: From the start time to the end time Te, the maximum value of the trajectory obtained by averaging the output values up to that point for each time interval (third maximum value)> Th3

本実施例2に係る音声処理装置200は、開始時刻から終了時刻Teまでの音声情報の特徴量に対する出力値に加え、各時間間隔の区間における音声情報の特徴量に対する出力値の統計量も判定に用いることができるため、上記の条件4~6を用いて、会話状況が異常であるか否かを判定することで、会話状況を精度よく判定することができる。 The voice processing apparatus 200 according to the second embodiment determines not only the output value for the feature amount of the voice information from the start time to the end time Te, but also the statistical value of the output value for the feature amount of the voice information in each time interval section. Therefore, the conversation status can be accurately determined by determining whether or not the conversation status is abnormal by using the above conditions 4 to 6.

次に、上記実施例に示した音声処理装置100,200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図25は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of the hardware configuration of the computer that realizes the same functions as the voice processing devices 100 and 200 shown in the above embodiment will be described. FIG. 25 is a diagram showing an example of a hardware configuration of a computer that realizes a function similar to that of a voice processing device.

図25に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置305とを有する。例えば、インターフェース装置305は、通信装置等に接続される。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。 As shown in FIG. 25, the computer 300 has a CPU 301 for executing various arithmetic processes, an input device 302 for receiving data input from a user, and a display 303. Further, the computer 300 has a reading device 304 that reads a program or the like from a storage medium, and an interface device 305 that exchanges data with another computer via a wired or wireless network. For example, the interface device 305 is connected to a communication device or the like. Further, the computer 300 has a RAM 306 for temporarily storing various information and a hard disk device 307. Then, each of the devices 301 to 307 is connected to the bus 308.

ハードディスク装置307は、取得プログラム307a、特徴量算出プログラム307b、モデル学習プログラム307c、会話時間管理プログラム307d、出力値算出プログラム307e、判定プログラム307fを読み出してRAM306に展開する。 The hard disk device 307 reads the acquisition program 307a, the feature amount calculation program 307b, the model learning program 307c, the conversation time management program 307d, the output value calculation program 307e, and the determination program 307f and deploys them in the RAM 306.

取得プログラム307aは、取得プロセス306aとして機能する。特徴量算出プログラム307bは、特徴量算出プロセス306bとして機能する。モデル学習プログラム307cは、モデル学習プロセス306cとして機能する。会話時間管理プログラム307dは、会話時間管理プロセス306dとして機能する。出力値算出プログラム307eは、出力値算出プロセス306eとして機能する。判定プログラム307fは、判定プロセス306fとして機能する。 The acquisition program 307a functions as the acquisition process 306a. The feature amount calculation program 307b functions as a feature amount calculation process 306b. The model learning program 307c functions as a model learning process 306c. The conversation time management program 307d functions as a conversation time management process 306d. The output value calculation program 307e functions as an output value calculation process 306e. The determination program 307f functions as the determination process 306f.

取得プロセス306aの処理は、取得部130a、230aに対応する。特徴量算出プロセス306bの処理は、特徴量算出部130b、230bに対応する。モデル学習プロセス306cの処理は、モデル学習部130c、230cに対応する。会話時間管理プロセス306dの処理は、会話時間管理部130d、230dに対応する。出力値算出プロセス306eの処理は、出力値算出部130e、230eに対応する。判定プロセス306fの処理は、判定部130f、230fに対応する。 The processing of the acquisition process 306a corresponds to the acquisition units 130a and 230a. The processing of the feature amount calculation process 306b corresponds to the feature amount calculation units 130b and 230b. The processing of the model learning process 306c corresponds to the model learning units 130c and 230c. The processing of the conversation time management process 306d corresponds to the conversation time management units 130d and 230d. The process of the output value calculation process 306e corresponds to the output value calculation units 130e and 230e. The processing of the determination process 306f corresponds to the determination units 130f and 230f.

なお、各プログラム307a~307fについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307fを読み出して実行するようにしても良い。 The programs 307a to 307f do not necessarily have to be stored in the hard disk device 307 from the beginning. For example, each program is stored in a "portable physical medium" such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into a computer 300. Then, the computer 300 may read and execute each program 307a to 307f.

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional notes will be further disclosed with respect to the embodiments including each of the above embodiments.

(付記1)音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(Appendix 1) Multiple features from a plurality of voice information from the start time to each set time based on a set time set at predetermined time intervals from the start time of the conversation to be judged included in the voice information. Calculate the amount,
By inputting a plurality of features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation, the said above corresponding to the plurality of features. Calculate multiple output values of the model for each set time,
A voice processing program characterized by causing a computer to execute a process of determining whether or not the conversation to be determined is an abnormal conversation situation based on the plurality of output values.

(付記2)前記判定する処理は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記1に記載の音声処理プログラム。 (Appendix 2) In the determination process, the range that can be taken by the loci of the plurality of output values is set to an abnormal area that is taken when the conversation situation is abnormal and a normal area that is taken when the conversation situation is normal. Additional note that it is divided and it is determined whether or not the conversation to be determined is an abnormal conversation situation based on the loci of the plurality of output values and the abnormal region and the normal region. The voice processing program according to 1.

(付記3)前記判定する処理は、前記異常領域を第1領域と、前記第1領域よりも出力値の大きい領域に相当する第2領域とに分割し、前記複数の出力値の軌跡の一部が前記第2領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第1領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする付記2に記載の音声処理プログラム。 (Appendix 3) In the determination process, the abnormal region is divided into a first region and a second region corresponding to a region having a larger output value than the first region, and one of the loci of the plurality of output values. When the unit is included in the second region, or when the entire locus of the plurality of output values is included in the first region, it is determined that the conversation to be determined is an abnormal conversation situation. The voice processing program described in Appendix 2 as a feature.

(付記4)前記判定する処理は、前記通常領域を第3領域と、前記第3領域よりも出力値の小さい領域に相当する第4領域とに分割し、前記複数の出力値の軌跡の一部が前記第4領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする付記2または3に記載の音声処理プログラム。 (Appendix 4) In the determination process, the normal region is divided into a third region and a fourth region corresponding to a region having a smaller output value than the third region, and one of the loci of the plurality of output values. The voice processing program according to Appendix 2 or 3, wherein when the unit is included in the fourth area, it is determined that the conversation to be determined is in a normal conversation situation.

(付記5)前記判定する処理は、前記出力値の軌跡が前記通常領域または前記異常領域を通過した順番を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記2に記載の音声処理プログラム。 (Appendix 5) In the determination process, it is determined whether or not the conversation to be determined is in an abnormal conversation situation based on the order in which the locus of the output value passes through the normal region or the abnormal region. The voice processing program according to Appendix 2, wherein the voice processing program is described.

(付記6)前記開始時刻は、前記音声情報に含まれる前記判定対象とする会話の開始が検出された時刻から所定時間後であることを特徴とする付記1~5のうちいずれか一つに記載の音声処理プログラム。 (Appendix 6) The start time is set to any one of the appendices 1 to 5, characterized in that the start time is a predetermined time after the time when the start of the conversation to be determined included in the voice information is detected. The described voice processing program.

(付記7)前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を更に算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を更に算出し、
前記判定する処理は、前記開始時刻から現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の現在時刻までの平均値と、前記現在時刻よりも所定時間前の時刻から前記現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の最小値と、開始時刻から現在時刻までの音声情報の特徴量から得られる出力値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記1に記載の音声処理プログラム。
(Appendix 7) In the process of calculating the feature amount, the voice information is divided into the predetermined time intervals, and a plurality of feature amounts are further calculated from the divided plurality of divided voice information.
In the process of calculating the output value, a plurality of output values are further calculated by inputting a plurality of feature amounts calculated from the plurality of divided voice information into the model.
In the determination process, the average value of a plurality of output values obtained from the feature quantities of the plurality of divided voice information from the start time to the current time up to the current time, and the time before a predetermined time from the current time are described. The determination target is based on the minimum value of a plurality of output values obtained from the feature quantities of a plurality of divided voice information up to the current time and the output value obtained from the feature quantities of the voice information from the start time to the current time. The voice processing program according to Appendix 1, wherein it is determined whether or not the conversation is in an abnormal conversation situation.

(付記8)前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を算出し、
前記判定する処理は、複数の分割音声情報の特徴量から得られる前記複数の出力値について開始時刻から設定時刻までの平均値を設定時刻ごとに算出して得られる軌跡の最大値と、複数の分割音声情報の特徴量から得られる前記複数の出力値の最小値と、前記開始時刻から各設定時刻までの音声情報の特徴量から得られる各出力値の最大値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記1に記載の音声処理プログラム。
(Appendix 8) In the process of calculating the feature amount, the voice information is divided into the predetermined time intervals, and a plurality of feature amounts are calculated from the divided plurality of divided voice information.
In the process of calculating the output value, a plurality of output values are calculated by inputting a plurality of feature amounts calculated from the plurality of divided voice information into the model.
The determination process includes the maximum value of the locus obtained by calculating the average value from the start time to the set time for each of the plurality of output values obtained from the feature quantities of the plurality of divided voice information, and a plurality of loci. The determination is based on the minimum value of the plurality of output values obtained from the feature amount of the divided voice information and the maximum value of each output value obtained from the feature amount of the voice information from the start time to each set time. The voice processing program according to Appendix 1, wherein it is determined whether or not the target conversation is in an abnormal conversation situation.

(付記9)コンピュータが実行する音声処理方法であって、
音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理を実行することを特徴とする音声処理方法。
(Appendix 9) A voice processing method executed by a computer.
Based on the set time set at predetermined time intervals from the start time of the conversation to be judged included in the voice information, a plurality of feature quantities are calculated from the plurality of voice information from the start time to each set time. ,
By inputting a plurality of features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation, the said above corresponding to the plurality of features. Calculate multiple output values of the model for each set time,
A voice processing method comprising executing a process of determining whether or not the conversation to be determined is an abnormal conversation situation based on the plurality of output values.

(付記10)前記判定する処理は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記9に記載の音声処理方法。 (Appendix 10) In the determination process, the range that can be taken by the loci of the plurality of output values is set to an abnormal area that is taken when the conversation situation is abnormal and a normal area that is taken when the conversation situation is normal. Additional note that it is divided and it is determined whether or not the conversation to be determined is an abnormal conversation situation based on the loci of the plurality of output values and the abnormal region and the normal region. 9. The voice processing method according to 9.

(付記11)前記判定する処理は、前記異常領域を第1領域と、前記第1領域よりも出力値の大きい領域に相当する第2領域とに分割し、前記複数の出力値の軌跡の一部が前記第2領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第1領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする付記10に記載の音声処理方法。 (Appendix 11) In the determination process, the abnormal region is divided into a first region and a second region corresponding to a region having a larger output value than the first region, and one of the loci of the plurality of output values. When the unit is included in the second region, or when the entire locus of the plurality of output values is included in the first region, it is determined that the conversation to be determined is an abnormal conversation situation. The voice processing method according to Appendix 10, which is a feature.

(付記12)前記判定する処理は、前記通常領域を第3領域と、前記第3領域よりも出力値の小さい領域に相当する第4領域とに分割し、前記複数の出力値の軌跡の一部が前記第4領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする付記10または11に記載の音声処理方法。 (Appendix 12) In the determination process, the normal region is divided into a third region and a fourth region corresponding to a region having a smaller output value than the third region, and one of the loci of the plurality of output values. The voice processing method according to Appendix 10 or 11, wherein when the unit is included in the fourth region, it is determined that the conversation to be determined is in a normal conversation situation.

(付記13)前記判定する処理は、前記出力値の軌跡が前記通常領域または前記異常領域を通過した順番を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記10に記載の音声処理方法。 (Appendix 13) In the determination process, it is determined whether or not the conversation to be determined is in an abnormal conversation situation based on the order in which the locus of the output value passes through the normal region or the abnormal region. The voice processing method according to Appendix 10, wherein the voice processing method is performed.

(付記14)前記開始時刻は、前記音声情報に含まれる前記判定対象とする会話の開始が検出された時刻から所定時間後であることを特徴とする付記9~13のうちいずれか一つに記載の音声処理方法。 (Appendix 14) The start time is set to any one of the appendices 9 to 13, characterized in that the start time is a predetermined time after the start of the conversation to be determined, which is included in the voice information, is detected. The described voice processing method.

(付記15)前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を更に算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を更に算出し、
前記判定する処理は、前記開始時刻から現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の現在時刻までの平均値と、前記現在時刻よりも所定時間前の時刻から前記現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の最小値と、開始時刻から現在時刻までの音声情報の特徴量から得られる出力値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記9に記載の音声処理方法。
(Appendix 15) In the process of calculating the feature amount, the voice information is divided into the predetermined time intervals, and a plurality of feature amounts are further calculated from the divided plurality of divided voice information.
In the process of calculating the output value, a plurality of output values are further calculated by inputting a plurality of feature amounts calculated from the plurality of divided voice information into the model.
In the determination process, the average value of a plurality of output values obtained from the feature quantities of the plurality of divided voice information from the start time to the current time up to the current time, and the time before a predetermined time from the current time are described. The determination target is based on the minimum value of a plurality of output values obtained from the feature quantities of a plurality of divided voice information up to the current time and the output value obtained from the feature quantities of the voice information from the start time to the current time. The voice processing method according to Appendix 9, wherein it is determined whether or not the conversation is in an abnormal conversation situation.

(付記16)前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を算出し、
前記判定する処理は、複数の分割音声情報の特徴量から得られる前記複数の出力値について開始時刻から設定時刻までの平均値を設定時刻ごとに算出して得られる軌跡の最大値と、複数の分割音声情報の特徴量から得られる前記複数の出力値の最小値と、前記開始時刻から各設定時刻までの音声情報の特徴量から得られる各出力値の最大値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記9に記載の音声処理方法。
(Appendix 16) In the process of calculating the feature amount, the voice information is divided into the predetermined time intervals, and a plurality of feature amounts are calculated from the divided plurality of divided voice information.
In the process of calculating the output value, a plurality of output values are calculated by inputting a plurality of feature amounts calculated from the plurality of divided voice information into the model.
The determination process includes the maximum value of the locus obtained by calculating the average value from the start time to the set time for each of the plurality of output values obtained from the feature quantities of the plurality of divided voice information, and a plurality of loci. The determination is based on the minimum value of the plurality of output values obtained from the feature amount of the divided voice information and the maximum value of each output value obtained from the feature amount of the voice information from the start time to each set time. The voice processing method according to Appendix 9, wherein it is determined whether or not the target conversation is in an abnormal conversation situation.

(付記17)音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出する特徴量算出部と、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出する出力値算出部と、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する判定部と
を有することを特徴とする音声処理装置。
(Appendix 17) Multiple features from a plurality of voice information from the start time to each set time based on a set time set at predetermined time intervals from the start time of the conversation to be determined included in the voice information. A feature amount calculation unit that calculates the amount, and
By inputting a plurality of features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation, the said above corresponding to the plurality of features. An output value calculation unit that calculates multiple output values of the model for each set time,
A voice processing device comprising a determination unit for determining whether or not the conversation to be determined is an abnormal conversation situation based on the plurality of output values.

(付記18)前記判定部は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記17に記載の音声処理装置。 (Appendix 18) The determination unit divides the range that the loci of the plurality of output values can take into an abnormal area that is taken when the conversation situation is abnormal and a normal area that is taken when the conversation situation is normal. The appendix 17 is characterized in that it is determined whether or not the conversation to be determined is an abnormal conversation situation based on the loci of the plurality of output values and the abnormal region and the normal region. The voice processing device described in.

(付記19)前記判定部は、前記異常領域を第1領域と、前記第1領域よりも出力値の大きい領域に相当する第2領域とに分割し、前記複数の出力値の軌跡の一部が前記第2領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第1領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする付記18に記載の音声処理装置。 (Appendix 19) The determination unit divides the abnormal region into a first region and a second region corresponding to a region having a larger output value than the first region, and a part of the loci of the plurality of output values. Is included in the second region, or when the entire locus of the plurality of output values is included in the first region, it is determined that the conversation to be determined is an abnormal conversation situation. The voice processing apparatus according to Appendix 18.

(付記20)前記判定部は、前記通常領域を第3領域と、前記第3領域よりも出力値の小さい領域に相当する第4領域とに分割し、前記複数の出力値の軌跡の一部が前記第4領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする付記18または19に記載の音声処理装置。 (Appendix 20) The determination unit divides the normal region into a third region and a fourth region corresponding to a region having a smaller output value than the third region, and a part of the loci of the plurality of output values. The voice processing apparatus according to Supplementary note 18 or 19, wherein when is included in the fourth region, it is determined that the conversation to be determined is in a normal conversation situation.

100,200 音声処理装置
110,210 通信部
120,220 記憶部
120a,220a 音声バッファ
120b,220b モデル情報
120c,220c 出力値蓄積バッファ
130,230 制御部
130a,230a 取得部
130b,230b 特徴量算出部
130c,230c モデル学習部
130d,230d 会話時間管理部
130e,230e 出力値算出部
130f,230f 判定部
100,200 Audio processing device 110, 210 Communication unit 120, 220 Storage unit 120a, 220a Voice buffer 120b, 220b Model information 120c, 220c Output value storage buffer 130, 230 Control unit 130a, 230a Acquisition unit 130b, 230b Feature amount calculation unit 130c, 230c Model learning unit 130d, 230d Conversation time management unit 130e, 230e Output value calculation unit 130f, 230f Judgment unit

Claims (10)

音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報に対して複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
Based on the set time set at predetermined time intervals from the start time of the conversation to be judged included in the voice information , a plurality of feature quantities are applied to a plurality of voice information from the start time to each set time. Calculate and
By inputting a plurality of features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation, the said above corresponding to the plurality of features. Calculate multiple output values of the model for each set time,
A voice processing program characterized by causing a computer to execute a process of determining whether or not the conversation to be determined is an abnormal conversation situation based on the plurality of output values.
前記判定する処理は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項1に記載の音声処理プログラム。 The determination process divides the range that can be taken by the loci of the plurality of output values into an abnormal area to be taken when the conversation situation is abnormal and a normal area to be taken when the conversation situation is normal. The first aspect of the present invention is to determine whether or not the conversation to be determined is an abnormal conversation situation based on the loci of a plurality of output values and the abnormal region and the normal region. Voice processing program. 前記判定する処理は、前記異常領域を第1領域と、前記第1領域よりも出力値の大きい領域に相当する第2領域とに分割し、前記複数の出力値の軌跡の一部が前記第2領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第1領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする請求項2に記載の音声処理プログラム。 In the determination process, the abnormal region is divided into a first region and a second region corresponding to a region having a larger output value than the first region, and a part of the loci of the plurality of output values is the first region. A claim characterized in that it is determined that the conversation to be determined is an abnormal conversation situation when it is included in two regions or when the entire locus of the plurality of output values is included in the first region. Item 2. The voice processing program according to item 2. 前記判定する処理は、前記通常領域を第3領域と、前記第3領域よりも出力値の小さい領域に相当する第4領域とに分割し、前記複数の出力値の軌跡の一部が前記第4領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする請求項2または3に記載の音声処理プログラム。 In the determination process, the normal region is divided into a third region and a fourth region corresponding to a region having a smaller output value than the third region, and a part of the loci of the plurality of output values is the first region. The voice processing program according to claim 2 or 3, wherein when it is included in the four areas, it is determined that the conversation to be determined is in a normal conversation situation. 前記判定する処理は、前記出力値の軌跡が前記通常領域または前記異常領域を通過した順番を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項2に記載の音声処理プログラム。 The determination process is characterized in that it is determined whether or not the conversation to be determined is in an abnormal conversation situation based on the order in which the locus of the output value passes through the normal region or the abnormal region. The voice processing program according to claim 2. 前記開始時刻は、前記音声情報に含まれる前記判定対象とする会話の開始が検出された時刻から所定時間後であることを特徴とする請求項1~5のうちいずれか一つに記載の音声処理プログラム。 The voice according to any one of claims 1 to 5, wherein the start time is a predetermined time after the start of the conversation to be determined, which is included in the voice information, is detected. Processing program. 前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を更に算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を更に算出し、
前記判定する処理は、前記開始時刻から現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の現在時刻までの平均値と、前記現在時刻よりも所定時間前の時刻から前記現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の最小値と、前記開始時刻から現在時刻までの音声情報の特徴量から得られる出力値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項1に記載の音声処理プログラム。
In the process of calculating the feature amount, the voice information is divided into the predetermined time intervals, and a plurality of feature amounts are further calculated from the divided plurality of divided voice information.
In the process of calculating the output value, a plurality of output values are further calculated by inputting a plurality of feature amounts calculated from the plurality of divided voice information into the model.
In the determination process, the average value of a plurality of output values obtained from the feature quantities of the plurality of divided voice information from the start time to the current time up to the current time, and the time before a predetermined time from the current time are described. The determination is based on the minimum value of a plurality of output values obtained from the feature quantities of a plurality of divided voice information up to the current time and the output value obtained from the feature quantities of the voice information from the start time to the current time. The voice processing program according to claim 1, wherein it is determined whether or not the target conversation is in an abnormal conversation situation.
前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を算出し、
前記判定する処理は、複数の分割音声情報の特徴量から得られる前記複数の出力値について開始時刻から設定時刻までの平均値を設定時刻毎に算出して得られる軌跡の最大値と、複数の分割音声情報の特徴量から得られる前記複数の出力値の最小値と、前記開始時刻から各設定時刻までの音声情報の特徴量から得られる各出力値の最大値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項1に記載の音声処理プログラム。
In the process of calculating the feature amount, the voice information is divided into the predetermined time intervals, and a plurality of feature amounts are calculated from the divided plurality of divided voice information.
In the process of calculating the output value, a plurality of output values are calculated by inputting a plurality of feature amounts calculated from the plurality of divided voice information into the model.
The determination process includes the maximum value of the locus obtained by calculating the average value from the start time to the set time for each of the plurality of output values obtained from the feature quantities of the plurality of divided voice information and a plurality of loci. The determination is based on the minimum value of the plurality of output values obtained from the feature amount of the divided voice information and the maximum value of each output value obtained from the feature amount of the voice information from the start time to each set time. The voice processing program according to claim 1, wherein it is determined whether or not the target conversation is in an abnormal conversation situation.
コンピュータが実行する音声処理方法であって、
音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報に対して複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理を実行することを特徴とする音声処理方法。
It is a voice processing method executed by a computer.
Based on the set time set at predetermined time intervals from the start time of the conversation to be judged included in the voice information , a plurality of feature quantities are applied to a plurality of voice information from the start time to each set time. Calculate and
By inputting a plurality of features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation, the said above corresponding to the plurality of features. Calculate multiple output values of the model for each set time,
A voice processing method comprising executing a process of determining whether or not the conversation to be determined is an abnormal conversation situation based on the plurality of output values.
音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報に対して複数の特徴量を算出する特徴量算出部と、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出する出力値算出部と、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する判定部と
を有することを特徴とする音声処理装置。
Based on the set time set at predetermined time intervals from the start time of the conversation to be judged included in the voice information , a plurality of feature quantities are applied to a plurality of voice information from the start time to each set time. The feature amount calculation unit to be calculated and
By inputting a plurality of features calculated for each set time into a model generated based on the features of voice information from the start time to the end time of the conversation, the said above corresponding to the plurality of features. An output value calculation unit that calculates multiple output values of the model for each set time,
A voice processing device comprising a determination unit for determining whether or not the conversation to be determined is an abnormal conversation situation based on the plurality of output values.
JP2018107778A 2018-06-05 2018-06-05 Speech processing program, speech processing method and speech processing device Active JP7095414B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018107778A JP7095414B2 (en) 2018-06-05 2018-06-05 Speech processing program, speech processing method and speech processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018107778A JP7095414B2 (en) 2018-06-05 2018-06-05 Speech processing program, speech processing method and speech processing device

Publications (2)

Publication Number Publication Date
JP2019211633A JP2019211633A (en) 2019-12-12
JP7095414B2 true JP7095414B2 (en) 2022-07-05

Family

ID=68846910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018107778A Active JP7095414B2 (en) 2018-06-05 2018-06-05 Speech processing program, speech processing method and speech processing device

Country Status (1)

Country Link
JP (1) JP7095414B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230127513A (en) * 2022-02-25 2023-09-01 에이치디현대일렉트릭 주식회사 Gas insulated switchgear

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7380188B2 (en) * 2019-12-24 2023-11-15 富士通株式会社 Update program, update method, and information processing device
CN111128129B (en) * 2019-12-31 2022-06-03 中国银行股份有限公司 Authority management method and device based on voice recognition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032787A1 (en) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
JP2015082093A (en) 2013-10-24 2015-04-27 富士通株式会社 Abnormal conversation detector, abnormal conversation detecting method, and computer program for detecting abnormal conversation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032787A1 (en) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
JP2015082093A (en) 2013-10-24 2015-04-27 富士通株式会社 Abnormal conversation detector, abnormal conversation detecting method, and computer program for detecting abnormal conversation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230127513A (en) * 2022-02-25 2023-09-01 에이치디현대일렉트릭 주식회사 Gas insulated switchgear

Also Published As

Publication number Publication date
JP2019211633A (en) 2019-12-12

Similar Documents

Publication Publication Date Title
JP6596376B2 (en) Speaker identification method and speaker identification apparatus
JP7095414B2 (en) Speech processing program, speech processing method and speech processing device
JP4316583B2 (en) Feature amount correction apparatus, feature amount correction method, and feature amount correction program
US7620547B2 (en) Spoken man-machine interface with speaker identification
EP2028645B1 (en) Method and system of optimal selection strategy for statistical classifications in dialog systems
EP2191460B1 (en) Method and system of optimal selection strategy for statistical classifications
EP3301675A1 (en) Parameter prediction device and parameter prediction method for acoustic signal processing
WO2018005858A1 (en) Speech recognition
CN109410956B (en) Object identification method, device, equipment and storage medium of audio data
US11527259B2 (en) Learning device, voice activity detector, and method for detecting voice activity
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP7021507B2 (en) Feature extraction device, feature extraction program, and feature extraction method
KR101564087B1 (en) Method and apparatus for speaker verification
JP2015176175A (en) Information processing apparatus, information processing method and program
JP2018063313A (en) The number of speakers estimation device, the number of speakers estimation method, and program
JP2018180459A (en) Speech synthesis system, speech synthesis method, and speech synthesis program
JP7380188B2 (en) Update program, update method, and information processing device
JP3039623B2 (en) Voice recognition device
JP5936378B2 (en) Voice segment detection device
CN103390404A (en) Information processing apparatus, information processing method and information processing program
Ilić et al. Simple tail index estimation for dependent and heterogeneous data with missing values
KR20150078831A (en) Method and system forspeech enhancement using non negative matrix factorization and basis matrix update
JP7293826B2 (en) PROBLEM DETECTION DEVICE, PROBLEM DETECTION METHOD AND PROBLEM DETECTION PROGRAM
EP1387350A1 (en) Spoken man-machine interface with speaker identification
JP5104732B2 (en) Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220606

R150 Certificate of patent or registration of utility model

Ref document number: 7095414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150