JP5385677B2 - Dialog state dividing apparatus and method, program and recording medium - Google Patents

Dialog state dividing apparatus and method, program and recording medium Download PDF

Info

Publication number
JP5385677B2
JP5385677B2 JP2009115499A JP2009115499A JP5385677B2 JP 5385677 B2 JP5385677 B2 JP 5385677B2 JP 2009115499 A JP2009115499 A JP 2009115499A JP 2009115499 A JP2009115499 A JP 2009115499A JP 5385677 B2 JP5385677 B2 JP 5385677B2
Authority
JP
Japan
Prior art keywords
frame
utterance
unit
time
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009115499A
Other languages
Japanese (ja)
Other versions
JP2010266522A (en
Inventor
済央 野本
敏 高橋
理 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009115499A priority Critical patent/JP5385677B2/en
Publication of JP2010266522A publication Critical patent/JP2010266522A/en
Application granted granted Critical
Publication of JP5385677B2 publication Critical patent/JP5385677B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

この発明は、二人の話者が対話する状況下の音声データを、対話の状態に応じて分類する装置とその方法と、そのプログラムと記録媒体に関する。   The present invention relates to an apparatus and method, a program, and a recording medium for classifying voice data under a situation in which two speakers interact with each other according to the state of the conversation.

近年、大量に蓄積されたデータから知見を獲得するマイニング技術が注目されている。例えばWeb上にある不特定話者によって書かれたブログや商品に対する自由記述アンケートから商品に対する世間一般の評判やその傾向を調べる目的でテキストマイニングといった手法が用いられる。   In recent years, a mining technique for acquiring knowledge from a large amount of accumulated data has attracted attention. For example, a technique such as text mining is used for the purpose of investigating the general reputation and trends of products from blogs written by unspecified speakers on the Web and free description questionnaires for products.

テキストマイニング技術の一つとして、単語ランキングや話題分類などがある。例えば、商品に対する自由記述アンケートやブログ記事などのテキストで書かれた文書を複数集めて、それらの話題傾向を調べる際、その中でどのような話題がどの程度あるかを調べる目的で文書頻度(Document Frequency、以下DFと称する)による単語ランキングが用いられる。DFとはある単語を含む文書がいくつあるかを表した値である。   One of the text mining techniques includes word ranking and topic classification. For example, when collecting multiple documents written in text, such as free-form questionnaires and blog articles on products, and examining their topic trends, the document frequency ( Word ranking by Document Frequency (hereinafter referred to as DF) is used. DF is a value representing how many documents contain a certain word.

このようなマイニング技術は、CRM(Customer Relationship Management)の分野において注目されており、顧客との応対記録を分析し、顧客のニーズ開拓やCS(Customer Satisfactin)向上などを目指す試みがなされている。CRM分析データとしてコールセンタにおけるオペレータと顧客との電話応対を録音したもの(以下、応対音声)などがある。   Such mining technology has been attracting attention in the field of CRM (Customer Relationship Management), and attempts have been made to analyze customer records and develop customer needs and improve CS (Customer Satisfactin). As CRM analysis data, there is a recording of a telephone reception between an operator and a customer in a call center (hereinafter referred to as reception voice).

そこで応対音声を音声認識や人手で書き起こした文書に対し、単語ランキングなどを用いて分析する場合、単純に応対音声の開始から終了までの全範囲を対象として分析を行っても意図どおりの通話内容を得ることは難しい。一言で応対音声と言っても、顧客が電話をかけて来た用件をオペレータに説明したり、顧客の本人確認をしたり、顧客の用件に対しオペレータが説明をしたりなど、一つの会話の中をいくつかの状態に分割することが出来る。そのため、会話をいくつかの状態に分割し、その分割された各状態について分析することで、データマイニングの精度の向上が期待出来る。つまり、顧客が用件を述べている状態なのか、又は、オペレータが顧客から情報を聞きだしている状態なのか、或いは、オペレータが回答している状態なのか、について対話状態を分割することでデータ分析の精度の向上が期待できる。   Therefore, when analyzing the response speech using voice recognition or manually transcribed documents using word ranking etc., even if the analysis is performed for the entire range from the start to the end of the response speech, the intended call It is difficult to get the contents. Even if it is said to be a response voice in one word, the customer can explain to the operator what he has called, confirm the identity of the customer, and the operator can explain the customer's requirements. A conversation can be divided into several states. Therefore, it is expected that the accuracy of data mining can be improved by dividing the conversation into several states and analyzing each divided state. In other words, it is possible to divide the dialogue state as to whether the customer is in the state of the business, the operator is listening to information from the customer, or the operator is answering. Improvement of data analysis accuracy can be expected.

関連する従来技術としては、例えば非特許文献1に開示された単語の出現傾向からテキストを分割するテキストセグメンテーション技術が知られている。テキストセグメンテーション技術とは、新聞記事や小説などといった文書を意味のまとまり毎に分割して行く技術である。しかし、応対音声のような二者の間で交わされる会話の対応状態を分割・類別するような技術はこれまでに報告されていない。   As a related prior art, for example, a text segmentation technique for dividing text from the appearance tendency of words disclosed in Non-Patent Document 1 is known. Text segmentation technology is a technology that divides documents such as newspaper articles and novels into groups of meanings. However, no technology has been reported so far that divides and classifies the correspondence state of conversations between two parties such as reception voice.

Marti A. Hearst. Multi-Paragraph Segmentation of Expository Text. 32ndAnnual Meeting of the Association for Computational Linguistics. Pp.9-16. 1994Marti A. Hearst. Multi-Paragraph Segmentation of Expository Text. 32nd Annual Meeting of the Association for Computational Linguistics. Pp. 9-16. 1994

従来のテキストセグメンテーション技術を利用する場合、応対音声を一旦テキストに書き起こす必要がある。応対音声を人手によって書き起こすと大きなコストがかかる。また、応対音声を音声認識して自動でテキスト化すると、認識結果に含まれる誤認識の影響から分割精度が悪化する心配がある。   When using a conventional text segmentation technique, it is necessary to transcribe the response voice into text once. It takes a lot of cost to manually write the response voice. In addition, when the response voice is recognized and converted into text automatically, there is a concern that the division accuracy may deteriorate due to the influence of misrecognition included in the recognition result.

この発明は、このような点に鑑みてなされたものであり、テキストの書き起こしにかかるコストを削減し、誤認識による分割精度の低下を回避することが可能な対話状態分割装置とその方法と、そのプログラムと記録媒体を提供することを目的とする。   The present invention has been made in view of the above points, and is a dialog state dividing apparatus and method capable of reducing the cost of transcription of text and avoiding a reduction in division accuracy due to erroneous recognition. An object of the present invention is to provide a program and a recording medium.

この発明の対話状態分割装置は、発話区間検出部と、フレーム抽出部と、フレーム内発話時間比計算部と、フレーム代表スコア計算部と、対話状態分類部とを具備する。発話区間検出部は、発話者Aと発話者Bによる二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する。フレーム抽出部は、それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力する。フレーム内発話時間比計算部は、上記1フレーム内の発話者Aまたは発話者Bの総発話時間を、当該フレーム内における発話者Aの総発話時間と発話者Bの総発話時間の合計値で除した値であるフレーム内発話時間比Rを、上記1フレーム毎に計算する。フレーム代表スコア計算部は、上記フレーム内発話時間比R又は平滑化したフレーム内発話時間比Rを上記1フレーム内の代表スコアとして決定する。対話状態分類部は、発話区間の時間比を少なくとも2個の閾値と比較することで各フレームを、少なくとも3つの対話状態にそれぞれ分類する。 The dialog state dividing device of the present invention includes an utterance section detecting unit, a frame extracting unit, an intra-frame utterance time ratio calculating unit, a frame representative score calculating unit, and a dialog state classifying unit. The utterance section detection unit detects the respective utterance sections of the two parties, using as input the voice data of the conversation between the two parties of the speaker A and the speaker B. The frame extraction unit arranges the respective utterance sections in order of elapsed time and outputs a predetermined number of utterance sections as one frame. The intra-frame utterance time ratio calculation unit calculates the total utterance time of the utterer A or the utterer B in the frame by the total value of the total utterance time of the utterer A and the total utterance time of the utterer B in the frame. An intra-frame speech time ratio R j that is the divided value is calculated for each frame. The frame representative score calculation unit determines the intra-frame speech time ratio R j or the smoothed intra-frame speech time ratio R j as a representative score in the one frame. The dialogue state classification unit classifies each frame into at least three dialogue states by comparing the time ratio of the utterance period with at least two threshold values.

この発明の対話状態分割装置によれば、テキスト情報を用いることなく対話状態を少なくとも、「顧客が用件を述べている状態」、「オペレータが顧客から情報を聞きだしている状態」、「オペレータが回答している状態」の3つの状態に分割することができる。会話者の発話時間比を用いて対話状態を分割するので、会話情報をテキスト情報に変換するコストがかからない。また、テキストの書き起こしに音声認識を用いた場合の認識結果誤りの影響を受けない。   According to the dialogue state dividing apparatus of the present invention, at least the dialogue state without using the text information is “a state in which the customer is describing the business”, “a state in which the operator is hearing information from the customer”, and “an operator Can be divided into three states: “state that is answering”. Since the conversation state is divided by using the conversation time ratio of the talker, there is no cost for converting the conversation information into text information. In addition, it is not affected by recognition result errors when speech recognition is used for transcription of text.

コールセンターにおける顧客対応状態の会話の一例を示す図。The figure which shows an example of the conversation of the customer correspondence state in a call center. この発明の対話状態分割装置100の機能構成例を示す図。The figure which shows the function structural example of the dialog state division | segmentation apparatus 100 of this invention. 対話状態分割装置100の動作フローを示す図。The figure which shows the operation | movement flow of the dialog state division | segmentation apparatus 100. FIG. 発話区間検出部10の機能構成例を示す図。The figure which shows the function structural example of the utterance area detection part. 発話分離部20の機能構成例を示す図。The figure which shows the function structural example of the speech separation part 20. FIG. フレーム抽出部11,11′の機能構成例を示す図。The figure which shows the function structural example of the frame extraction parts 11 and 11 '. 二者の発話区間を発話時間順に配列した一例を示す図。The figure which shows an example which arranged the utterance area of two persons in order of utterance time. フレーム内発話時間比計算部12の機能構成例を示す図。The figure which shows the function structural example of the utterance time ratio calculation part 12 in a flame | frame. フレーム代表スコア計算部13の出力信号の一例を概念的に示す図。The figure which shows notionally an example of the output signal of the frame representative score calculation part 13. FIG. フレーム代表スコア計算部13′の動作フローを示す図。The figure which shows the operation | movement flow of frame representative score calculation part 13 '. フレーム代表スコア計算部13′の出力信号の一例を概念的に示す図。The figure which shows notionally an example of the output signal of frame representative score calculation part 13 '. 対話状態分割部14の動作フローを示す図。The figure which shows the operation | movement flow of the dialog state division | segmentation part 14. FIG. 対話状態分割部14が動作した結果の一例を示す図。The figure which shows an example of the result as which the dialog state division | segmentation part 14 operate | moved. 相槌の発話区間から成るフレームの例を示す図。The figure which shows the example of the flame | frame which consists of an utterance area of a conflict.

この発明の実施例の説明をする前に、この発明の考えについて説明する。
〔この発明の考え〕
この発明の対話状態分割方法は、二者の話者のどちらが会話の主導権を握っているか、に着目して対話状態を分割する考えである。図1に、例えばコールセンターにおける顧客とオペレータの対話状態の一例を示す。図1の横方向は経過時間であり、その経過時間を表す中心線の上側にオペレータの発話区間、下側に顧客の発話区間を示す。
Before describing the embodiments of the present invention, the idea of the present invention will be described.
[Concept of this invention]
The dialog state dividing method of the present invention is an idea of dividing the dialog state by paying attention to which of the two speakers has the initiative of the conversation. FIG. 1 shows an example of a conversation state between a customer and an operator in a call center, for example. The horizontal direction in FIG. 1 is the elapsed time, and the operator's speech section is shown above the center line representing the elapsed time, and the customer's speech section is shown below.

コールセンター等における顧客とオペレータの会話の流れは、顧客が用件を述べている状態:U(以下、状態Uと称する)、オペレータが顧客情報を聞き出している状態:O(以下、状態Oと称する)、オペレータが回答している状態:O(以下、状態Oと称する)、の順番に推移するのが一般的である。この一連の会話の流れは、どちらの話者がどれだけ話をしているか、について着目することで分割することができる。 The flow of conversation customers and operators in call centers, the state customer is stated requirements: U R (hereinafter, referred to as state U R), the state operator is elicit customer information: O H (hereinafter, the state O H ), and the state in which the operator has answered: O A (hereinafter referred to as state O A ). This series of conversation flows can be divided by paying attention to which speaker is talking how much.

この発明の対話状態分割方法は、それぞれの話者の発話時間の比を求め、その比によって、顧客がオペレータより長く発話している区間を状態U、オペレータと顧客が同程度の時間発話している区間を状態O、オペレータが顧客より長く発話している区間を状態O、の3つの状態に分割するものである。この方法によれば、会話情報をテキスト情報に変換する必要がない。したがって、テキスト情報に変換するコストが不要であり、テキスト情報に変換する際の変換誤差の影響も受けずに対話状態を分割することが可能である。 Dialog state division method of the present invention determines the ratio of the respective speaker speech time, by the ratio, the state a section customer is speaking longer than the operator U R, talk time originated extent operators and customers same Is divided into three states, state O H , and a section in which the operator speaks longer than the customer, state O A. According to this method, it is not necessary to convert conversation information into text information. Therefore, the cost of converting to text information is unnecessary, and the dialog state can be divided without being affected by the conversion error when converting to text information.

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.

図2にこの発明の対話状態分割装置100の機能構成例を示す。その動作フローを図3に示す。対話状態分割装置100は、発話区間検出部10と、フレーム抽出部11と、フレーム内発話時間比計算部12と、フレーム代表スコア計算部13と、対話状態分割部14と、制御部15とを具備する。対話状態分割装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。   FIG. 2 shows a functional configuration example of the dialog state dividing apparatus 100 of the present invention. The operation flow is shown in FIG. The dialog state dividing apparatus 100 includes an utterance section detecting unit 10, a frame extracting unit 11, an intra-frame utterance time ratio calculating unit 12, a frame representative score calculating unit 13, a dialog state dividing unit 14, and a control unit 15. It has. The dialog state dividing apparatus 100 is realized by a predetermined program being read into a computer composed of, for example, a ROM, a RAM, and a CPU, and the CPU executing the program.

発話区間検出部10は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する(ステップS10)。フレーム抽出部11は、発話区間検出部10が出力する一方の話者の発話区間と他方の話者の発話区間を入力として、それぞれの発話区間を経過時間順に並べて所定数の発話区間をまとめて1フレームとして出力する(ステップS11)。   The utterance section detection unit 10 receives voice data of conversation between the two parties, and detects the respective utterance sections of the two parties (step S10). The frame extraction unit 11 inputs the utterance interval of one speaker and the utterance interval of the other speaker output from the utterance interval detection unit 10, arranges the respective utterance intervals in order of elapsed time, and collects a predetermined number of utterance intervals. Output as one frame (step S11).

フレーム内発話時間比計算部12は、フレーム内のそれぞれの発話区間の時間比をフレーム毎に計算する(ステップS12)。フレーム代表スコア計算部13は、その発話区間の時間比から1フレーム内の代表スコアR^(^の表記は図中の表記が正しい)を発話区間の単位で決定する(ステップS13)。対話状態分割部14は、その代表スコアR^を2個の閾値と比較することで、各フレームを3つの対話状態にそれぞれ分類する(ステップS14)。制御部15は、全てのフレームの分類が終わるまでステップS10〜S14の処理を繰り返すように、各部の動作を制御する(ステップS15)。 The intra-frame utterance time ratio calculation unit 12 calculates the time ratio of each utterance section in the frame for each frame (step S12). The frame representative score calculation unit 13 determines a representative score Rj ^ (notation of ^ is correct in the figure) in one frame from the time ratio of the utterance interval in units of utterance intervals (step S13). The dialogue state dividing unit 14 classifies each frame into three dialogue states by comparing the representative score R j ^ with two threshold values (step S14). The control unit 15 controls the operation of each unit so as to repeat the processing of steps S10 to S14 until all the frames are classified (step S15).

この対話状態分割装置100によれば、二者の発話区間を経過時間順に所定の数並べて1フレームとし、各フレーム毎に二者の発話区間の時間比を求める。そして、各フレームの発話区間の時間比から各フレームの代表スコアR^を発話区間を単位として決定する。その代表スコアR^の値を2個の閾値と比較することで、二者が会話する音声データを状態Uと状態Oと状態Oの3つの対話状態に分割することができる。 According to the dialog state dividing apparatus 100, a predetermined number of two utterance sections are arranged in order of elapsed time to form one frame, and the time ratio of the two utterance sections is obtained for each frame. Then, the representative score R j ^ of each frame is determined from the time ratio of the utterance interval of each frame in units of the utterance interval. By comparing the values of the representative score R j ^ and two thresholds, it is possible to divide the audio data two parties to talk to the three dialog state condition U R and State O H and a state O A.

従来技術のようにテキスト情報を用いる必要が無いのでコストを安く、また、音声データをテキスト情報に変換する際に発生する変換誤差の影響を受けること無く対話状態を分割・類別することを可能にする。   It is not necessary to use text information as in the prior art, so the cost is low, and it is possible to divide and categorize dialog states without being affected by conversion errors that occur when converting voice data to text information. To do.

以下、対話状態分割装置100の各部の機能構成例を示してその動作を更に詳しく説明する。   Hereinafter, the functional configuration example of each part of the dialog state dividing apparatus 100 will be shown and the operation will be described in more detail.

〔発話区間検出部〕
図4に発話区間検出部10の機能構成例を示す。図4に示す例は、二者が会話する音声データが、それぞれ分離された2チャネルの(ステレオ信号)信号で与えられる場合の例である。
[Speech section detector]
FIG. 4 shows a functional configuration example of the utterance section detection unit 10. The example shown in FIG. 4 is an example in which the voice data with which the two parties talk is given as a two-channel (stereo signal) signal separated from each other.

発話区間検出部10は、パワー計算手段101aと101b、音声区間検出手段102aと102bとを備える。パワー計算手段101aと101bは、一方の話者の発話音声データと、他方の話者の発話音声データとをそれぞれ入力としてそれぞれの音声パワーを計算する。音声区間検出手段102aと102bは、それぞれの発話の音声パワーを入力として、音声パワーと所定の閾値とを比較し音声パワーが一定時間以上続く区間をそれぞれの発話区間として出力する。発話区間検出部10は、従来から知られているいわゆる音声スイッチと呼ばれるものと同じ構成で実現できる。   The utterance section detection unit 10 includes power calculation means 101a and 101b and voice section detection means 102a and 102b. The power calculation means 101a and 101b calculate the respective voice powers by using the speech data of one speaker and the speech data of the other speaker as inputs. The voice section detecting means 102a and 102b receive the voice power of each utterance, compare the voice power with a predetermined threshold value, and output a section where the voice power continues for a predetermined time or more as each utterance section. The utterance section detection unit 10 can be realized with the same configuration as what is called a so-called voice switch.

二者の会話する音声データが1つのチャネルで与えられる場合、二者の発話を分離する必要がある。図5に二者の発話を分離するための発話分離部20の機能構成例を示す。発話分離部20は、音声データを音声認識して話者を分類するものである。   When voice data for conversation between two parties is given by one channel, it is necessary to separate the utterances of the two parties. FIG. 5 shows a functional configuration example of the utterance separating unit 20 for separating two utterances. The utterance separating unit 20 classifies speakers by recognizing voice data.

発話分離部20は、AD変換手段21と、特徴量抽出手段22と、話者分類手段23と、モデルパラメータ記録部24と、DA変換手段25,26とを備える。AD変換手段21は、二者が会話する1チャネルのアナログ信号である音声データをディジタル信号に変換する。特徴量抽出部22は、ディジタル信号に変換された音声データを例えば短時間フーリエ変換等で周波数領域の信号に変換して音声データの特徴量を抽出する。   The utterance separation unit 20 includes an AD conversion unit 21, a feature amount extraction unit 22, a speaker classification unit 23, a model parameter recording unit 24, and DA conversion units 25 and 26. The AD conversion means 21 converts voice data, which is an analog signal of one channel with which the two parties talk, into a digital signal. The feature quantity extraction unit 22 extracts the feature quantity of the voice data by converting the voice data converted into the digital signal into a frequency domain signal by, for example, short-time Fourier transform.

話者分類部23は、その特徴量をモデルパラメータ記録部24に記録されている音響モデルと言語モデルと比較することで話者を認識してその発話を分離する。分離された音声データは、DA変換手段25,26で話者毎にアナログ信号に変換される。   The speaker classification unit 23 recognizes the speaker by comparing the feature quantity with the acoustic model and the language model recorded in the model parameter recording unit 24, and separates the speech. The separated voice data is converted into an analog signal for each speaker by the DA conversion means 25 and 26.

話者毎の音声データがアナログ信号に変換された後の動作は、上記した発話区間検出部10(図4)の動作と同じである。なお、発話分離部20を、二者の会話を音声認識する例で説明したが、話者の声の音響的な特徴を音響モデルのみを用いて分類するようにしても良い。また、話者の声の周波数に一定の差があれば、簡単な周波数フィルタで話者を分類することも可能である。   The operation after the voice data for each speaker is converted into an analog signal is the same as the operation of the utterance section detection unit 10 (FIG. 4). In addition, although the speech separation unit 20 has been described as an example of recognizing a conversation between two parties, the acoustic features of the speaker's voice may be classified using only an acoustic model. Further, if there is a certain difference in the frequency of the voice of the speaker, it is possible to classify the speaker with a simple frequency filter.

〔フレーム抽出部〕
図6にフレーム抽出部11の機能構成例を示す。フレーム抽出部11は、発話時間順配列手段111と、フレーム生成手段112とを備える。発話時間順配列手段111は、二者のそれぞれの発話区間を発話開始時間順に配列する。
[Frame Extraction Unit]
FIG. 6 shows a functional configuration example of the frame extraction unit 11. The frame extraction unit 11 includes an utterance time order arrangement unit 111 and a frame generation unit 112. The utterance time order arrangement unit 111 arranges the utterance sections of the two parties in the order of the utterance start time.

図7に二者の発話区間を発話時間順に配列した一例を示す。図7に楕円で囲ったOPE1は、オペレータの1番目の発話区間を意味する。同じくUSR1は、顧客の1番目の発話区間を意味する。図7に示すオペレータの「本日はどのようなご用件でしょうか?」で始まる会話の発話区間は、発話区間検出部10と発話時間順配列手段111の動作によって、経過時間順に並べられる。   FIG. 7 shows an example in which two utterance sections are arranged in the order of utterance time. OPE1 enclosed by an ellipse in FIG. 7 means the first utterance section of the operator. Similarly, USR1 means the customer's first utterance section. The speech utterances of the conversation starting with “What is your business today?” Shown in FIG. 7 are arranged in order of elapsed time by the operations of the utterance duration detection unit 10 and the utterance time order arrangement means 111.

フレーム生成手段112は、経過時間順に並べられた発話区間を予め定めた発話の数k、例えばk=3ずつまとめて1フレームF(1≦j≦N−k+1)として出力する。ここでNは、会話におけるオペレータの発話数と顧客の発話数の合計である。フレーム生成手段112は、そのNを一定間隔毎、例えば1発話毎スライドして通話全体に対してフレームを生成する。図7に示す例では、2個の発話区間を共有してフレームが形成される。このようにフレームを重ねることで発話区間に時間比の値が安定する効果が期待できる。なお、全く発話区間が重ならないようにしてフレームを構成しても構わない。 The frame generation unit 112 collects the utterance sections arranged in the order of elapsed time and outputs the frames as a single frame F j (1 ≦ j ≦ N−k + 1), for example, by k = 3, for example. Here, N is the total of the number of utterances of the operator and the number of utterances of the customer in the conversation. The frame generation means 112 generates a frame for the entire call by sliding N at regular intervals, for example, for each utterance. In the example shown in FIG. 7, a frame is formed by sharing two utterance sections. By overlapping frames in this way, an effect of stabilizing the value of the time ratio in the utterance interval can be expected. Note that the frames may be configured such that the speech sections do not overlap at all.

〔フレーム内発話時間比計算部〕
図8にフレーム内発話時間比計算部12の機能構成例を示す。フレーム内発話時間比計算部12は、発話者発話時間集計手段121と、発話時間比計算手段122とを備える。発話者発話時間集計手段121は、発話者毎に発話時間を集計する。図7に示したフレームFの例では、オペレータの発話時間OPE1+OPE2を計算して、顧客の発話時間USR1と切り分ける動作を行う。
[Intra-frame utterance time ratio calculator]
FIG. 8 shows a functional configuration example of the intra-frame speech time ratio calculation unit 12. The intra-frame utterance time ratio calculation unit 12 includes a utterer utterance time counting unit 121 and an utterance time ratio calculation unit 122. The speaker utterance time totaling unit 121 totals the utterance time for each speaker. In the example of frames F 1 shown in FIG. 7, by calculating the speech time OPE1 + OPE2 operator performs an operation to isolate the customer speech time USR1.

発話時間比計算手段122は、フレームF毎にフレーム中に含まれるオペレータと顧客の発話時間比であるフレーム内発話時間比Rを式(1)で計算する。 Speech time ratio calculating means 122 calculates the frame speech time ratio R j is an operator and speech time ratio of the customer contained in the frame for each frame F j in equation (1).

図7に示したフレームFの例では、R=(OPE1+OPE2)/(OPE1+US
R1+OPE2)である。
In the example of the frame F 1 shown in FIG. 7, R j = (OPE1 + OPE2) / (OPE1 + US)
R1 + OPE2).

フレーム内発話時間比Rが1に近い値であれば、そのフレーム内ではオペレータが顧
客に対して長く話をしていることを意味する。0に近い値であれば顧客がオペレータに対
して長く話をしていることを意味する。0.5に近い値であればオペレータと顧客がほぼ
同じ時間話をしていることを意味する。
If the intra-frame speech time ratio R j is a value close to 1, it means that the operator has been talking to the customer for a long time within the frame. A value close to 0 means that the customer has been talking to the operator for a long time. A value close to 0.5 means that the operator and the customer are talking for almost the same time.

〔フレーム代表スコア計算部〕
フレーム代表スコア計算部13は、1フレーム内の代表スコアを発話区間の単位で決定
する。図9にフレーム代表スコア計算部13の出力信号の一例を概念的に示す。図9の横
方向には発話区間Uが経過時間順に並べられ、縦方向はフレームFが経過時間順に並べられている。図9は1フレームが3個の発話区間から成る例である。
[Frame Representative Score Calculator]
The frame representative score calculation unit 13 determines a representative score in one frame in units of utterance sections. FIG. 9 conceptually shows an example of the output signal of the frame representative score calculation unit 13. In the horizontal direction of FIG. 9, the speech sections U i are arranged in the order of elapsed time, and in the vertical direction, the frames F j are arranged in the order of elapsed time. FIG. 9 shows an example in which one frame is composed of three utterance sections.

そして図9では、1フレームの代表スコアをフレームの真中の発話区間の値として決定している。フレーム内のどの発話区間を代表スコアとするかは任意である。フレーム代表スコア計算部13は、フレームの先頭の発話区間、若しくは最後の発話区間を代表スコアとして決定しても良い。   In FIG. 9, the representative score of one frame is determined as the value of the utterance section in the middle of the frame. Which utterance section in the frame is used as the representative score is arbitrary. The frame representative score calculation unit 13 may determine the first utterance section or the last utterance section of the frame as the representative score.

また、代表スコアの変動を抑制する目的で複数フレームの発話区間の時間比の平均値を求め、その平均値を代表スコアとしても良い。 図10に複数フレームの発話区間の時間比の平均値を代表スコアとするフレーム代表スコア計算部13′の動作フローを示す。   Further, an average value of time ratios of speech sections of a plurality of frames may be obtained for the purpose of suppressing the variation of the representative score, and the average value may be used as the representative score. FIG. 10 shows an operation flow of the frame representative score calculation unit 13 ′ using the average value of the time ratios of the utterance sections of a plurality of frames as a representative score.

フレーム代表スコア計算部13′は、例えば3個の発話区間の時間比を、経過時間順に記憶する記憶手段を備える。この記憶手段は、最も古い発話区間の時間比を、新しい発話区間の時間比が入力される度に消去する。よって、常時最新の3個の発話区間の時間比を記憶する。この記憶手段は一般的なメモリ回路で構成できる物なので機能構成例を図示した説明は省略する。   The frame representative score calculation unit 13 ′ includes storage means for storing, for example, time ratios of three utterance sections in order of elapsed time. This storage means erases the time ratio of the oldest utterance interval every time a new utterance interval time ratio is input. Therefore, the time ratio of the latest three utterance sections is always stored. Since this storage means can be constituted by a general memory circuit, a description of the functional configuration example is omitted.

ステップS130でその記憶手段に3フレーム分の時間比が記憶されたか否かを判断する。まだ、3フレーム分の時間比が記憶されていない間(ステップS130のN)は、そのフレーム毎の時間比を代表スコアとして決定する(ステップS131)。   In step S130, it is determined whether or not the time ratio for three frames is stored in the storage means. While the time ratio for three frames is not yet stored (N in step S130), the time ratio for each frame is determined as the representative score (step S131).

3フレーム分の時間比が記憶手段に記憶されると(ステップS130のY)、その3個の時間比の平均値を計算する(ステップS132)。その平均値を真中のフレームの代表スコアとして決定する(ステップS133)。ステップS130〜S133までの動作を全てのフレームについて行う(ステップS150のN)。   When the time ratios for three frames are stored in the storage means (Y in step S130), the average value of the three time ratios is calculated (step S132). The average value is determined as the representative score of the middle frame (step S133). The operation from step S130 to S133 is performed for all frames (N in step S150).

以上の動作の結果、図9に示した各フレームの代表スコアは、図11に示すように変化する。フレームFj+1が0.2から0.3に、フレームFj+2が0.4から0.3に、フレームFj+3が0.3から0.4に、それぞれ変化する。フレームFj+4の値は、図の表記の関係から移動平均前の値である。このように複数のフレームの発話区間の時間比を移動平均して代表スコアとしても良い。代表スコアを平均値とすることで、代表スコアの局所的な変動を抑制できる。 As a result of the above operation, the representative score of each frame shown in FIG. 9 changes as shown in FIG. The frame F j + 1 is changed from 0.2 to 0.3, the frame F j + 2 is changed from 0.4 to 0.3, and the frame F j + 3 is changed from 0.3 to 0.4. The value of the frame F j + 4 is a value before moving average because of the notation in the figure. In this way, the time ratio of the utterance sections of a plurality of frames may be subjected to a moving average to obtain a representative score. By making the representative score an average value, local variation of the representative score can be suppressed.

〔対話状態分割部〕
図12に対話状態分割部14の動作フローを示す。対話状態分割部14は、フレーム代表スコア計算部13が出力する代表スコアを、少なくとも2個の閾値X,Yと比較することで、各フレームを少なくとも3つの対話状態に分類する。
[Dialogue State Division]
FIG. 12 shows an operation flow of the dialog state dividing unit 14. The dialog state dividing unit 14 classifies each frame into at least three dialog states by comparing the representative score output by the frame representative score calculating unit 13 with at least two threshold values X and Y.

対話状態分割部14は、フレーム代表スコア計算部13が出力するフレーム毎の代表スコアR^を、まず閾値Xと比較する。閾値Xは0.5より小さな例えば0.4と、予め定められた値である。代表スコアR^が0.4未満であると(ステップS140のY)、そのフレームは顧客が用件を述べている状態:Uに分類される(ステップS141)。 The dialog state dividing unit 14 first compares the representative score R j ^ for each frame output by the frame representative score calculating unit 13 with the threshold value X. The threshold value X is a predetermined value such as 0.4, which is smaller than 0.5. Representative score R j ^ is is less than 0.4 (Y in step S140), the frame state customer is stated requirements: fall into U R (step S141).

代表スコアR^が閾値Xよりも大であると、次に代表スコアR^は閾値Yと比較される。閾値Yは、0.5より大きな例えば0.6といった値である。代表スコアR^が閾値Yよりも大きいと(ステップS142のY)、そのフレームはオペレータが回答している状態:Oに分類される(ステップS143)。 If the representative score R j ^ is greater than the threshold X, then the representative score R j ^ is compared with the threshold Y. The threshold Y is a value larger than 0.5, for example, 0.6. If the representative score R j ^ is larger than the threshold Y (Y in step S142), the frame is classified into a state that the operator has answered: O A (step S143).

代表スコアR^が閾値Yよりも小さいと(ステップS142のN)、そのフレームはオペレータが顧客情報を聞き出している状態:Oに分類される。このフレームを分類する動作は、それぞれのフレームをメモリ回路に記憶させる方法でも良いし、各フレームに各状態U,O,Oのラベルを付す動作でも良い。 Representative score R j ^ is smaller than the threshold value Y (N in step S142), the frame state operator is elicit customer information: is classified into O H. Operation of classifying the frame can be a method of storing a respective frame in the memory circuits, each state U R in each frame, O A, may be operating subjecting the labels O H.

以上のように対話状態分割部14が動作することで、各フレームを発話区間の単位で3つの対話状態に分割することができる。図13にその分割した一例を示す。その横軸は経過時間順に配列された発話区間U、縦軸は各フレームの代表スコアR^である。 As described above, the dialogue state dividing unit 14 operates, whereby each frame can be divided into three dialogue states in units of utterance sections. FIG. 13 shows an example of the division. The horizontal axis represents utterance intervals U i arranged in the order of elapsed time, and the vertical axis represents the representative score R j ^ of each frame.

発話区間Uまでが状態U、発話区間U〜U11までが状態O、発話区間U12以降が状態Oに分割されている。このように、各フレームの代表スコアが発話区間の単位で決定されているので、発話区間を単位として対話状態の分割が行える。状態Uから状態Oに変化する発話区間Uは、1フレームが3個の発話区間から成るとすると、図13の原点から2個目のフレームの真中の発話区間に当たる。このフレーム内のどの発話区間を代表スコアとするかは上記したように任意である。 Speech segment U 5 until the condition U R, to the speech segment U 6 ~U 11 state O H, is the speech segment U 12 after being divided into state O A. As described above, since the representative score of each frame is determined in units of utterance sections, the conversation state can be divided in units of utterance sections. Speech segment U 5 changes from state U R state O H, when one frame consists of three speech period corresponds to the speech segment in the middle of the two first frames from the origin in FIG. 13. Which utterance section in this frame is used as the representative score is arbitrary as described above.

以上説明したように対話状態分割装置100によれば、二者の会話する音声データをテキスト情報に変換すること無く、その対話状態の分割を可能にする。   As described above, according to the dialog state dividing device 100, it is possible to divide the dialog state without converting the voice data of the conversation between the two into text information.

〔変形例1〕
対話状態分割装置100は、発話区間検出部10で検出した発話区間を、フレーム抽出部11が経過時間順に所定数並べて1フレームとする。発話区間としては、「はい」や「えー」等の相槌も含まれる。
[Modification 1]
In the dialog state dividing apparatus 100, the frame extraction unit 11 arranges a predetermined number of the utterance sections detected by the utterance section detection unit 10 in order of elapsed time to be one frame. As the utterance section, “Yes”, “Eh” and the like are also included.

図14に相槌の発話区間から成るフレームの例を示す。図14の横方向は経過時間を表す。顧客の「先日引越しをしたので、住所変更の手続きを行ったんですね。」で始まり、オペレータが相槌を返す会話部分を表している。その発話を経過時間順に並べるとオペレータの相槌であるOPE1とOPE2とOPE3の発話区間が1フレームとみなされ、オペレータが長く話しているように判定されてしまうことが考えられる。このようなフレームが生成されると誤判定の原因になるので相槌の発話区間を削除するようにしても良い。   FIG. 14 shows an example of a frame made up of utterance intervals. The horizontal direction of FIG. 14 represents elapsed time. It starts with the customer's "I moved the other day, so I changed the address." It shows the conversation part where the operator returns a mutual inquiry. If the utterances are arranged in the order of elapsed time, the utterance section of OPE1, OPE2, and OPE3, which is an operator's relationship, is regarded as one frame, and it may be determined that the operator is speaking for a long time. If such a frame is generated, an erroneous determination may be caused, so that the utterance interval of the conflict may be deleted.

図6に相槌を削除するようにしたフレーム抽出部11′の機能構成例を破線で示す。フレーム抽出部11′のフレーム生成手段112′は、相槌発話区間削除手段1120を備える。   FIG. 6 shows an example of a functional configuration of the frame extraction unit 11 ′ in which the conflict is deleted by a broken line. The frame generation unit 112 ′ of the frame extraction unit 11 ′ includes a conflicting utterance section deletion unit 1120.

相槌発話区間削除手段1120は、例えば短い発話区間を相槌として削除する。例えば1秒未満の発話区間は相槌とみなしても良い。また、一方が発話中に他方が発話を開始して短時間で終了したような発話区間は相槌とみなしても良い。また、「はい」や「えー」を音声認識してその発話区間を削除するようにしても良い。   The conflicting utterance section deleting means 1120 deletes, for example, a short utterance section as a conflict. For example, an utterance period of less than 1 second may be regarded as a conflict. In addition, an utterance section in which one side utters while the other starts uttering and ends in a short time may be regarded as a conflict. Further, “Yes” or “Eh” may be recognized as a voice and the utterance section may be deleted.

以上述べたように、この発明の対話状態分割装置100によれば、テキスト情報を用い
ることなく対話状態を少なくとも、「顧客が用件を述べている状態」、「オペレータが顧
客から情報を聞きだしている状態」、「オペレータが回答している状態」の3つの状態に
分割することができる。会話者の発話時間比を用いて対話状態を分割するので、会話情報
をテキスト情報に変換するコストがかからない。また、テキスト書き起こしに音声認識を
用いた場合の認識結果誤りの影響を受けない等の効果を奏する。
As described above, according to the dialog state dividing apparatus 100 of the present invention, at least the dialog state without using the text information, “the state in which the customer is describing the business”, “the operator hears the information from the customer”. It is possible to divide the state into three states, that is, a state where the operator is answering and a state where the operator is answering. Since the conversation state is divided by using the conversation time ratio of the talker, there is no cost for converting the conversation information into text information. In addition, there is an effect that the recognition result error is not affected when speech recognition is used for text transcription.

この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、対話状態分割部14は、代表スコアを2個の閾値と比較することで3つの対話状態に分割する例で説明を行ったが、代表スコアと比較する閾値をN個として、分割する状態数をN+1個の状態に分割するようにしても良い。   The method and apparatus of the present invention are not limited to the above-described embodiments, and can be appropriately changed without departing from the spirit of the present invention. For example, the dialog state dividing unit 14 has been described as an example in which the representative score is divided into three dialog states by comparing the representative score with two threshold values, but the state to be divided is set to N threshold values to be compared with the representative score. The number may be divided into N + 1 states.

なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   Note that the processes described in the above method and apparatus are not only executed in time series according to the order of description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

Claims (6)

発話者Aと発話者Bによる二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する発話区間検出部と、
上記それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力するフレーム抽出部と、
上記1フレーム内の発話者Aまたは発話者Bの総発話時間を、当該フレーム内における発話者Aの総発話時間と発話者Bの総発話時間の合計値で除した値であるフレーム内発話時間比Rを、上記1フレーム毎に計算するフレーム内発話時間比計算部と、
上記フレーム内発話時間比R又は平滑化したフレーム内発話時間比Rを上記1フレーム内の代表スコアとして決定するフレーム代表スコア計算部と、
上記代表スコアを少なくとも2個の閾値と比較することで、各フレームを少なくとも3つの対話状態にそれぞれ分類する対話状態分割部と、
を具備する対話状態分割装置。
A speech section detection unit that detects speech sections of the two parties by inputting voice data of conversation between the two parties of the speaker A and the speaker B , and
A frame extracting unit that arranges the respective utterance sections in order of elapsed time and outputs a predetermined number of utterance sections as one frame;
The total utterance time of the speaker A or the speaker B in the frame is divided by the total value of the total utterance time of the speaker A and the total utterance time of the speaker B in the frame. An intra-frame speech time ratio calculation unit for calculating the ratio R j for each frame,
A frame representative score calculation unit that determines the intra-frame speech time ratio R j or the smoothed intra-frame speech time ratio R j as a representative score in the one frame;
A dialogue state dividing unit for classifying each frame into at least three dialogue states by comparing the representative score with at least two threshold values;
A dialog state dividing apparatus comprising:
請求項1に記載した対話状態分割装置において、
上記フレーム抽出部は、
所定時間幅に満たない上記発話区間を削除する相槌発話単位削除手段を更に備えること、
を特徴とする対話状態分割装置。
In the dialog state dividing device according to claim 1,
The frame extraction unit
Further comprising a compatible utterance unit deleting means for deleting the utterance section that is less than the predetermined time width,
A dialog state dividing device characterized by the above.
請求項1又は2に記載した対話状態分割装置において、
上記対話状態分割部の上記2個の閾値の一方は0.5より小であり、他方の閾値は0.5より大であること、
を特徴とする対話状態分割装置。
In the dialog state dividing device according to claim 1 or 2,
One of the two thresholds of the dialog state splitting unit is less than 0.5 and the other threshold is greater than 0.5;
A dialog state dividing device characterized by the above.
発話区間検出部が、発話者Aと発話者Bによる二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する発話区間検出過程と、
フレーム抽出部が、上記それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力するフレーム抽出過程と、
フレーム内発話時間比計算部が、上記1フレーム内の発話者Aまたは発話者Bの総発話時間を、当該フレーム内における発話者Aの総発話時間と発話者Bの総発話時間の合計値で除した値であるフレーム内発話時間比Rを、上記1フレーム毎に計算するフレーム内発話時間比計算過程と、
フレーム代表スコア計算部が、上記フレーム内発話時間比R又は平滑化したフレーム内発話時間比Rを上記1フレーム内の代表スコアとして決定するフレーム代表スコア計算過程と、
対話状態分類部が、上記代表スコアを少なくとも2個の閾値と比較することで、各フレームを少なくとも3つの対話状態にそれぞれ分類する対話状態分類過程と、
を含む対話状態分割方法。
An utterance interval detection process in which an utterance interval detection unit detects voice data of conversation between the two parties of the utterer A and the utterer B and detects the respective utterance intervals of the two parties;
A frame extraction process in which the frame extraction unit arranges the respective utterance sections in order of elapsed time and outputs a predetermined number of utterance sections as one frame;
The intra-frame utterance time ratio calculation unit calculates the total utterance time of the utterer A or the utterer B within the frame by the total value of the total utterance time of the utterer A and the total utterance time of the utterer B within the frame. An intra-frame speech time ratio calculation process for calculating the intra-frame speech time ratio R j , which is the divided value , for each frame,
A frame representative score calculation unit in which the frame representative score calculation unit determines the intra-frame speech time ratio R j or the smoothed intra-frame speech time ratio R j as a representative score in the one frame;
A dialogue state classification process in which the dialogue state classification unit classifies each frame into at least three dialogue states by comparing the representative score with at least two threshold values;
Dialog state splitting method including
請求項1乃至3の何れかに記載した対話状態分割装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the dialog state dividing device according to any one of claims 1 to 3. 請求項5に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。   A computer-readable recording medium on which any one of the programs according to claim 5 is recorded.
JP2009115499A 2009-05-12 2009-05-12 Dialog state dividing apparatus and method, program and recording medium Expired - Fee Related JP5385677B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009115499A JP5385677B2 (en) 2009-05-12 2009-05-12 Dialog state dividing apparatus and method, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009115499A JP5385677B2 (en) 2009-05-12 2009-05-12 Dialog state dividing apparatus and method, program and recording medium

Publications (2)

Publication Number Publication Date
JP2010266522A JP2010266522A (en) 2010-11-25
JP5385677B2 true JP5385677B2 (en) 2014-01-08

Family

ID=43363568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009115499A Expired - Fee Related JP5385677B2 (en) 2009-05-12 2009-05-12 Dialog state dividing apparatus and method, program and recording medium

Country Status (1)

Country Link
JP (1) JP5385677B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5810912B2 (en) 2011-12-28 2015-11-11 富士通株式会社 Speech recognition apparatus, speech recognition method, and speech recognition program
JP5749212B2 (en) * 2012-04-20 2015-07-15 日本電信電話株式会社 Data analysis apparatus, data analysis method, and data analysis program
JP5749213B2 (en) * 2012-04-20 2015-07-15 日本電信電話株式会社 Audio data analysis apparatus, audio data analysis method, and audio data analysis program
JP6327252B2 (en) * 2013-08-07 2018-05-23 日本電気株式会社 Analysis object determination apparatus and analysis object determination method
JP6440967B2 (en) * 2014-05-21 2018-12-19 日本電信電話株式会社 End-of-sentence estimation apparatus, method and program thereof
JP6392051B2 (en) 2014-09-22 2018-09-19 株式会社東芝 Electronic device, method and program
JP6641832B2 (en) 2015-09-24 2020-02-05 富士通株式会社 Audio processing device, audio processing method, and audio processing program
WO2019130816A1 (en) * 2017-12-25 2019-07-04 京セラドキュメントソリューションズ株式会社 Information processing device and evaluation method
US11837233B2 (en) 2018-01-12 2023-12-05 Sony Corporation Information processing device to automatically detect a conversation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4169712B2 (en) * 2004-03-03 2008-10-22 久徳 伊藤 Conversation support system
JP2006267465A (en) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The Uttering condition evaluating device, uttering condition evaluating program, and program storage medium
JP2007033754A (en) * 2005-07-26 2007-02-08 Nec Corp Voice monitor system, method and program
JP4567606B2 (en) * 2006-01-05 2010-10-20 富士通株式会社 Sound data listening part specifying processing program and processing device
JP5099211B2 (en) * 2008-02-28 2012-12-19 富士通株式会社 Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance
JP5088741B2 (en) * 2008-03-07 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション System, method and program for processing voice data of dialogue between two parties

Also Published As

Publication number Publication date
JP2010266522A (en) 2010-11-25

Similar Documents

Publication Publication Date Title
JP5385677B2 (en) Dialog state dividing apparatus and method, program and recording medium
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US11227603B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
US9881617B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
CN111128223B (en) Text information-based auxiliary speaker separation method and related device
US8676586B2 (en) Method and apparatus for interaction or discourse analytics
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
US20150262574A1 (en) Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
US20150310877A1 (en) Conversation analysis device and conversation analysis method
US20150350438A1 (en) Speech analytics system and methodology with accurate statistics
JP4972107B2 (en) Call state determination device, call state determination method, program, recording medium
US20210306457A1 (en) Method and apparatus for behavioral analysis of a conversation
JP6208794B2 (en) Conversation analyzer, method and computer program
JP6365304B2 (en) Conversation analyzer and conversation analysis method
US11398239B1 (en) ASR-enhanced speech compression
WO2014069443A1 (en) Complaint call determination device and complaint call determination method
CN113689886B (en) Voice data emotion detection method and device, electronic equipment and storage medium
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
WO2014069444A1 (en) Complaint conversation determination device and complaint conversation determination method
Zhang et al. Frame-level vocal effort likelihood space modeling for improved whisper-island detection

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131004

R150 Certificate of patent or registration of utility model

Ref document number: 5385677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees