JP6576968B2 - End-of-speech determination device, end-of-speech determination method, and program - Google Patents
End-of-speech determination device, end-of-speech determination method, and program Download PDFInfo
- Publication number
- JP6576968B2 JP6576968B2 JP2017021606A JP2017021606A JP6576968B2 JP 6576968 B2 JP6576968 B2 JP 6576968B2 JP 2017021606 A JP2017021606 A JP 2017021606A JP 2017021606 A JP2017021606 A JP 2017021606A JP 6576968 B2 JP6576968 B2 JP 6576968B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech
- determination
- dialogue
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置、話し終わり判定方法およびプログラムに関する。 The present invention relates to an end-of-speech determination device, an end-of-speech determination method, and a program for determining whether or not an utterance in a dialogue by a plurality of speakers is an end-of-speaker utterance.
コールセンタや窓口などでの顧客と応対担当者との対話の中から、話者の話し終わり(話し終わりの発話)を検出することで、例えば、顧客が話し終えてから、顧客の発話をまとめてシステムで解析するといった処理が可能となる。 By detecting the end of the speaker's speech (utterance at the end of the speech) from the conversation between the customer and the person in charge at the call center or window, for example, after the customer has finished speaking, summarize the customer's speech Processing such as analysis by the system becomes possible.
顧客と応対担当者との対話のような複数の話者による対話における発話が話し終わりの発話であるか否かを判定する方法として、対話における発話に話し終わりの発話であるか否かの情報が付与された学習データ(話し終わり学習データ)を用いる方法がある(非特許文献1参照)。この方法では、対話における発話に話し終わりの発話であるか否かの情報が付与された学習データが利用される。そして、その学習データを用いた機械学習により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルが生成される。 Information on whether the utterance in the dialogue is the end of the utterance as a method of determining whether the utterance in the dialogue by multiple speakers such as the dialogue between the customer and the agent in charge is the end of the utterance There is a method of using learning data (speech end learning data) to which is given (see Non-Patent Document 1). In this method, learning data to which information indicating whether or not the utterance at the end of the talk is added to the utterance in the dialogue is used. Then, by machine learning using the learning data, an end-of-speech determination model for determining whether or not the utterance in the dialogue is the end-of-speech utterance is generated.
一般に、話し終わりの発話には、分野ごとに表現に違いがある。そのため、非特許文献1に開示されている方法では、ある分野の話し終わり学習データを用いて生成された話し終わり判定モデルを他の分野に適用した場合、話し終わりの発話であるか否かを高精度に判定することができないことがある。判定を行いたい分野毎に、話し終わり学習データを用意することも考えられるが、分野毎に話し終わり学習データを用意することは、コストの増加を招いてしまう。
In general, there is a difference in the expression of each utterance at the end of the utterance. Therefore, in the method disclosed in
上記のような問題点に鑑みてなされた本発明の目的は、コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定することができる話し終わり判定装置、話し終わり判定方法およびプログラムを提供することにある。 An object of the present invention, which has been made in view of the above problems, is a speech end determination device that can determine whether or not an utterance in a dialogue is an end of speech while suppressing an increase in cost. It is in providing the end determination method and program.
上記課題を解決するため、本発明に係る話し終わり判定装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定する判定部を備える。 In order to solve the above-described problem, the speech end determination device according to the present invention is a speech end determination device that determines whether or not an utterance in a dialogue by a plurality of speakers is an utterance at the end of a speaker's speech, A determination unit is provided for determining whether or not the utterance in the dialogue is an utterance at the end of the talk based on whether or not the speaker is changed in the dialogue.
また、上記課題を解決するため、本発明に係る話し終わり判定方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定方法であって、対話における発話の話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定するステップを含む。 In addition, in order to solve the above-described problem, the speech end determination method according to the present invention is a speech end determination method for determining whether an utterance in a dialogue by a plurality of speakers is an utterance at the end of a speaker's speech. And determining whether or not the utterance in the dialogue is an end-of-speech utterance based on whether or not the speaker of the utterance in the dialogue is changed.
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上述した話し終わり判定装置として機能させる。 Moreover, in order to solve the said subject, the program which concerns on this invention makes a computer function as the above-mentioned talking end determination apparatus.
本発明に係る話し終わり判定装置、話し終わり判定方法およびプログラムによれば、コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定することができる。 According to the talk end determination device, the talk end determination method, and the program according to the present invention, it is possible to determine whether or not the utterance in the dialogue is the utterance at the end of the talk while suppressing an increase in cost.
以下、本発明を実施するための形態について、図面を参照しながら説明する。 Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings.
(第1の実施形態)
図1は、本発明の第1の実施形態に係る話し終わり判定装置10の構成例を示すブロック図である。本実施形態に係る話し終わり判定装置10は、顧客と応対担当者との対話のような複数の話者による対話における発話が、話者が伝えたい内容を話し終えた話し終わりの発話であるか否かを判定するものである。
(First embodiment)
FIG. 1 is a block diagram illustrating a configuration example of the talking
なお、人間は常に伝えたい内容を整理してよどみなく話せるわけではなく、話の途中で考えたり、言い淀んだりする。そのため、発話者が話している途中に、音声が途切れる(無音区間が発生する)ことがある。発話とは、話者の話をこのような音声の途切れなどで区切ったものである。 In addition, human beings are not always able to talk about what they want to convey, and they can think and talk in the middle of the story. For this reason, the voice may be interrupted (a silent section occurs) while the speaker is speaking. An utterance is a speaker's story separated by such breaks in speech.
図1に示す話し終わり判定装置10は、判定部11を備える。
The talking
判定部11は、複数の話者による対話(顧客と応対担当者との対話)の対話構造に基づき、対話における発話が話し終わりの発話であるか否かを判定する。具体的には、判定部11は、対話において話者が交代する話者交代の有無を検出し、話者交代の直前の発話を話し終わりの発話であると判定する。
The
一般に、顧客と応対担当者との対話などにおいては、例えば、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その直前の発話は話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。判定部11は、この傾向に基づき、対話における発話が話し終わりの発話であるか否かを判定する。
In general, in a dialogue between a customer and a person in charge, for example, after the customer has finished talking about the content that the customer wants to inquire, the person in charge answers the inquiry, and after the person in charge has finished talking about the answer, the customer There are many dialog structures that make further inquiries. That is, when a speaker change occurs, there is a tendency that the utterance just before that is often the utterance at the end of the talk before the speaker change occurs. Based on this tendency, the
なお、判定部11は、対話における発話のうち、「あー」、「えーと」、「はい」などの対話の内容に関係しないフィラーのみの発話を取り除いた上で、話者交代が起こったか否かを判定する。フィラーのみの発話は、顧客が話している最中の応対担当者の相槌などである可能性が高く、このような発話を話者交代が起こったか否かの判定に含めると、話し終わりでないにも関わらず、話者交代が起こったと判定されてしまうことがある。そこで、本実施形態においては、フィラーのみの発話を取り除いた上で、話者交代が起こったか否かを判定する。
Note that the
このように本実施形態においては、話し終わり判定装置10は、対話における話者の交代の有無に基づき、対話における発話が話者の話し終わりの発話であるか否かを判定する判定部11を備える。
As described above, in the present embodiment, the speech
話者交代の直前の発話が話し終わりの発話であるという対話構造は、対話が行われている分野に関わらず、よく見られる。この対話構造を用いて対話における発話が話し終わりの発話であるか否かを判定することで、判定を行いたい分野毎に、話し終わり学習データを用意するといったコストの増加を招くことなく、対話における発話が話し終わりの発話であるか否かを判定することができる。 The dialogue structure in which the utterance just before the speaker change is the utterance at the end of the talk is often seen regardless of the field in which the dialogue is being conducted. By using this dialog structure to determine whether or not the utterance in the dialog is an end-of-speech utterance, the dialog end without increasing the cost of preparing the end-of-speech learning data for each field to be determined It can be determined whether or not the utterance at is the utterance at the end of the talk.
(第2の実施形態)
図2は、本発明の第2の実施形態に係る話し終わり判定装置10Aの構成例を示す図である。本実施形態に係る話し終わり判定装置10Aは、顧客と応対担当者との対話のような複数の話者による対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを生成するための話し終わり学習データを生成するものである。なお、図2において、図1と同様の構成については同じ符号を付し、説明を省略する。
(Second Embodiment)
FIG. 2 is a diagram illustrating a configuration example of a speech
図2に示す話し終わり判定装置10Aは、図1に示す話し終わり判定装置10と比較して、学習データ生成部12を追加した点が異なる。
The talk
学習データ生成部12は、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを機械学習により生成するための話し終わり学習データ13を、判定部11の判定結果に基づき生成する。生成された話し終わり学習データ13は、例えば、図3に示すように、判定モデル生成部14に入力され、判定モデル生成部14による機械学習により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデル15が生成される。この話し終わり判定モデル15により、例えば、コールセンターにおける顧客と応対担当者との対話における発話が話し終わりの発話であるか否かが判定される。なお、話し終わり判定モデル15および判定モデル生成部14は、話し終わり判定装置10Aが備えていてもよいし、話し終わり判定装置10Aとは別の外部装置が備えていてもよい。
The learning
図4は、顧客と応対担当者との対話の一例を示す図である。 FIG. 4 is a diagram illustrating an example of a dialogue between a customer and a person in charge.
図4に示す例では、顧客は、「あの、ちょっと伺いたいのですが」という発話#1に続いて、「インターネットでの購入ですけども」という発話#2を行っている。顧客の発話#1,#2を受けて、応対担当者は、顧客の発話に対する相槌として「はい」という発話#3を行っている。
In the example shown in FIG. 4, the customer performs an
顧客は、応対担当者の発話#3に続いて、「配送料はどうなりますか」という発話#4を行っている。顧客の発話#1,#2,#4は、インターネットでの購入の際の配送料について問い合わせる内容であり、発話#4で問い合わせが終わっている。したがって、顧客の発話#4は話し終わりの発話に相当する。
The customer makes an
応対担当者は、顧客の発話#4を受けて、「現在、インターネットでの配送料は無料です」という、顧客の問い合わせに対して回答する発話#5を行っている。応対担当者の発話#5により、顧客の問い合わせに対する回答が終わっている。したがって、応対担当者の発話#5は話し終わりの発話に相当する。
In response to the customer's
図4に示す顧客と応対担当者との対話を例として、話し終わり判定モデル15を生成するための話し終わり学習データ13について図5を参照して説明する。
The conversation
上述したように、対話の中にフィラーのみの発話が含まれると、実際には話者が話し終わっていないにも関わらず、話者交代が起こったと判定されることがある。そこで、話し終わり学習データ13においては、フィラーのみの発話は取り除かれる。そのため、話し終わり学習データ13としては、図5に示すように、応対担当者によるフィラー(「はい」)のみの発話#3を除いた発話#1,#2,#4,#5が抽出される。そして、各発話に対して話し終わりの発話であるか否かを示す情報(話し終わりフラグ)が付与される。図5に示す例では、話し終わりフラグが「0」である場合には話し終わりの発話ではなく、話し終わりフラグが「1」である場合には話し終わりの発話であることを示す。したがって、話し終わりの発話である発話#4,#5の話し終わりフラグに「1」が設定され、他の発話#1,#2の話し終わりフラグに「0」が設定される。このように、話し終わり学習データ13は、顧客や応対担当者の発話と、その発話が話し終わりの発話であるか否かを示す情報とが対応付けられたデータである。
As described above, when the dialogue includes only the filler utterance, it may be determined that the speaker change has occurred even though the speaker has not actually finished speaking. Therefore, in the end-of-
なお、図5においては、フィラーのみの発話を取り除く例を説明したが、これに限られるものではない。例えば、フィラーのみの発話以外の発話にフィラーが含まれている場合には、そのフィラーは取り除いてもよいし、そのフィラーはそのままでもよい。 In addition, although the example which removes the speech only of a filler was demonstrated in FIG. 5, it is not restricted to this. For example, when a filler is included in an utterance other than the utterance of only the filler, the filler may be removed or the filler may be left as it is.
また、図5においては、発話毎に話し終わりフラグを設定する例を用いて説明したが、これに限られるものではなく、話し終わりまでの発話を順次つなげた発話に話し終わりフラグを設定してもよい。 In addition, in FIG. 5, the description has been given using the example of setting the end-of-speech flag for each utterance. However, the present invention is not limited to this, and the end-of-speech flag is set for utterances in which the utterances until the end of the speech are sequentially connected. Also good.
例えば、図6に示すように、発話#1は話し終わりの発話ではないため、発話#1の話し終わりフラグに「0」が設定される。次に、顧客の発話#1と、発話#1に続く顧客の発話#2とをつなげた発話が、話し終わり学習データ13に追加される。発話#2は話し終わりの発話ではないため、発話#1と発話#2とをつなげた発話は話し終わりの発話ではない。そのため、発話#1と発話#2とをつなげた発話の話し終わりフラグに「0」が設定される。
For example, as shown in FIG. 6, since the
次に、顧客の発話#1と、発話#1に続く発話#2と、発話#2に続く顧客の発話#4(フィラーのみの発話#3を除く)とをつなげた発話が話し終わり学習データ13に追加される。発話#4は話し終わりの発話であるため、発話#1と発話#2と発話#4とをつなげた発話は話し終わりの発話である。そのため、発話#1と発話#2と発話#4をつなげた発話の話し終わりフラグに「1」が設定される。このように、話し終わりまでの発話を順次つなげた発話と、その発話の話し終わりフラグとを話し終わり学習データ13に追加してもよい。
Next, the utterance connecting the
図5,6に示すような話し終わり学習データ13は、顧客と応対担当者との対話から手動により生成することができる。ただし、このような話し終わり学習データ13を、話し終わり判定を行いたい分野毎に生成するのはコストがかかってしまう。
The end-of-
そこで、本実施形態においては、対話構造から対話における発話が話し終わりの発話であるか否かを判定し、その判定結果を話し終わり学習データ13として用いる。こうすることで、話し終わり判定を行いたい分野の対話から自動的に話し終わり学習データ13を生成することができる。そして、生成した話し終わり学習データ13を用いて話し終わり判定モデル15を生成することで、コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定することができる。
Therefore, in the present embodiment, it is determined from the dialog structure whether or not the utterance in the dialog is an utterance at the end of the talk, and the determination result is used as the talk
(第3の実施形態)
図7は、本発明の第3の実施形態に係る話し終わり判定装置10Bの構成例を示す図である。なお、図7において、図2,3と同様の構成については同じ符号を付し、説明を省略する。
(Third embodiment)
FIG. 7 is a diagram illustrating a configuration example of the talking
図7に示す話し終わり判定装置10Bは、図2に示す話し終わり判定装置10Aと比較して、判定モデル生成部14および話し終わり判定モデル15を追加した点が異なる。すなわち、本実施形態においては、話し終わり判定装置10Bは、対話構造を用いた話し終わりか否かの判定結果から話し終わり学習データ13を生成し、生成した話し終わり学習データ13を用いて話し終わり判定モデル15を生成する。そして、話し終わり判定モデル15による、対話における発話が話し終わりの発話であるか否かの判定結果を出力する。
The talk
次に、本実施形態に係る話し終わり判定装置10Bの動作について、より詳細に説明する。
Next, operation | movement of the speech
事前処理として、対話における発話に話し終わりフラグが付与された話し終わり学習データ13を用いた機械学習により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデル15が生成される。なお、事前処理で用いる話し終わり学習データ13は、例えば、手動により話し終わりフラグが付与されたデータ、前述した対話構造を利用した判定により話し終わりフラグが付与されたデータなどを用いることができる。
As pre-processing, the end-of-
機械学習の手法は、学習データに基づき適切なモデルを生成することできれば、特に限定されることはなく、ディープラーニング、サポートベクタマシンなどの種々の手法を用いることができる。話し終わりの発話であるか否かの判定に利用する情報(素性)についても特に限定されることはなく、正しい判定が可能となるように種々のものを用いることができる。 The machine learning method is not particularly limited as long as an appropriate model can be generated based on the learning data, and various methods such as deep learning and support vector machine can be used. There is no particular limitation on the information (feature) used for determining whether or not the speech is at the end of the speech, and various information can be used so that correct determination is possible.
次に、オンライン処理(発話に応じたリアルタイム処理)として、話し終わり判定装置10Aに対して、顧客と応対担当者との対話の音声データ(対話データ)が入力され、話し終わり判定モデル15を用いて、その対話データが示す対話における発話が話し終わりの発話であるか否かが判定される。
Next, as online processing (real-time processing according to speech), voice data (dialog data) of dialogue between the customer and the person in charge is input to the speech
以下では、対話データとして、図8に示すような、顧客と応対担当者との対話データが入力されたとする。なお、話し終わり判定装置10Aには、顧客の発話と応対担当者の発話とが異なるチャンネル(2チャンネル)で入力される。
In the following, it is assumed that the dialogue data between the customer and the person in charge as shown in FIG. 8 is input as the dialogue data. Note that the utterance of the customer and the utterance of the person in charge of the customer are input to the talk
図8に示す例では、顧客は、「えーと、あんまり詳しくないので」という発話#11の後、「どれがいいかよくわからないんですけど」という発話#12を行っている。
In the example shown in FIG. 8, the customer performs the
応対担当者は、顧客の発話#12の後、顧客の発話に対する相槌として、「はい」というフィラーのみの発話#13を行っている。顧客は、応対担当者の発話#13の後、「どの商品がおすすめですか」という発話を行っている。おすすめの商品に問い合わせる顧客の発話が終わったので、応対担当者は、おすすめの商品を挙げる発話#15を行っている。
After the customer's
話し終わり判定モデル15は、このような対話において、図9に示すように、顧客の発話#11は話し終わりの発話ではないと判定し、顧客の発話#12,#14は話し終わりの発話であると判定したとする。話し終わり判定装置10Bは、この話し終わり判定モデル15の判定結果を出力する。
As shown in FIG. 9, the conversation
なお、本実施形態においては、話し終わり判定装置10Bが学習データ生成部12や判定モデル生成部14を備える例を用いて説明したが、これに限られるものではなく、話し終わり判定装置10Bとは別の外部装置が、学習データ生成部12や判定モデル生成部14を備えていてよい。この場合、話し終わり判定装置10Bは、外部装置により生成された話し終わり判定モデル15を取得し、取得した話し終わり判定モデル15の判定結果を出力する。
In the present embodiment, the description has been given using the example in which the talking
(第4の実施形態)
図10は、本発明の第4の実施形態に係る話し終わり判定装置10Cの構成例を示す図である。なお、図10において、図7と同様の構成については同じ符号を付し、説明を省略する。
(Fourth embodiment)
FIG. 10 is a diagram illustrating a configuration example of a talking
図10に示す話し終わり判定装置10Cは、図7に示す話し終わり判定装置10Bと比較して、学習データ生成部12を学習データ生成部12Cに変更した点が異なる。
The talking
学習データ生成部12Cは、判定部11の判定結果と話し終わり判定モデル15の判定結果とが入力され、これらの判定結果に基づき話し終わり学習データ13を生成する。
The learning data generation unit 12C receives the determination result of the
次に、本実施形態に係る話し終わり判定装置10Cの動作について説明する。本実施形態に係る話し終わり判定装置10Cにおいても、第3の実施形態に係る話し終わり判定装置10Bと同様に事前処理およびオンライン処理が行われる。
Next, the operation of the talking
次に、事後処理として、判定部11は、対話構造に基づき、入力された対話データが示す対話における発話が話し終わりの発話であるか否かを判定する。
Next, as post-processing, the
まず、判定部11は、対話における発話のうち、フィラーのみの発話(発話#13)を取り除く。そして、判定部11は、各発話に対し、その発話の後に続く発話との間で話者交代が起こったか否かを判定する。なお、上述したように、顧客の発話と応対担当者の発話とが異なるチャンネルで入力される。判定部11は、各チャンネルの入力を監視することで、話者交代が起こったか否かを判定することができる。そして、判定部11は、話者交代が起こったと判定すると、話者交代の直前の発話を話し終わりの発話であると判定し、話者交代が起こっていないと判定すると、その直前の発話を話し終わりの発話でないと判定する。
First, the
図11に示すように、発話#11と発話#11に続く発話#12との間では、発話は顧客のままであり、話者交代は起こっていない。また、発話#12と発話#12に続く発話#14(フィラーのみの発話#3は除く)との間では、発話は顧客のままであり、話者交代は起こっていない。また、発話#14と発話#14に続く発話#15との間では、発話は顧客から応対担当者に交代しており、話者交代が起こっている。そのため、判定部11は、図8に示すように、顧客の発話#11,#12を話し終わりの発話でないと判定し、顧客の発話#14を話し終わりの発話であると判定する。
As shown in FIG. 11, between the
学習データ生成部12Cは、話し終わり判定モデル15による判定結果と、判定部11による判定結果とを比較する。そして、学習データ生成部12Cは、図12に示すように、話し終わり判定モデル15による判定結果と、判定部11による判定結果とが一致する発話を話し終わり学習データ13に追加する。
The learning data generation unit 12C compares the determination result by the speech
図12に示す例では、話し終わり判定モデル15と判定部11とで、発話#11の判定結果(話し終わりの発話でない)および発話#14の判定結果(話し終わりの発話である)が一致している。学習データ生成部12Cは、発話#11,#14とその判定結果とを話し終わり学習データ13として追加する。話し終わり判定モデル15と判定部11とで判定結果が一致している場合、その判定結果の信頼性は高いと考えられる。そのため、話し終わり判定モデル15と判定部11とで一致する判定結果を話し終わり学習データ13とすることで、その話し終わり学習データ13を用いた機械学習により、話し終わり判定モデル15の信頼性の向上を図ることができる。
In the example shown in FIG. 12, the determination result of utterance # 11 (not the utterance at the end of the talk) and the determination result of utterance # 14 (the utterance at the end of the talk) match between the talk
なお、学習データ生成部12Cは、話し終わり判定モデル15による判定結果と、判定部11による判定結果とを比較することなく、判定部11による判定結果を話し終わり学習データ13に追加してもよい。
Note that the learning data generation unit 12C may add the determination result by the
このように本実施形態においては、話し終わり判定装置10Cは、対話における発話が話し終わりの発話であるか否かが、判定部11と話し終わり判定モデル15とで一致する判定結果を、話し終わり学習データ13に追加する学習データ生成部12Cを備える。
As described above, in the present embodiment, the speech
話し終わり判定モデル15と判定部11とで一致する判定結果を話し終わり学習データ13とすることで、その話し終わり学習データ13を用いた機械学習により、話し終わり判定モデル15の信頼性の向上を図ることができる。
By making the determination result coincided with the end-of-
なお、上述したように、話し終わり学習データ13は、発話単位ではなく、連続する複数の発話をまとめた(蓄積した)単位で生成してもよい。例えば、1つの発話が話し終わりの発話でない場合、その発話に話し終わりフラグを付与するとともに、その発話と次の発話とをつなげた発話に対しても話し終わりフラグを付与して、話し終わり学習データ13を生成してもよい。この場合、話し終わりの発話であると判定されるまで、発話が順次つなげられる。そして、話し終わりの発話であると判定されると、発話の蓄積がリセットされ、話し終わりの発話であると判定された発話の次の発話について、話し終わりの発話であるか否かが判定される。
As described above, the end-of-
また、顧客と応対担当者との対話は、音声認識処理によりテキスト化した上で、話し終わり判定モデル15での処理が行われる。ここで、音声認識処理においては、誤りが発生することがある。そこで、発話に含まれる単語の音声認識処理による認識結果として複数の候補を用意するN−best法を用いた処理を行ってもよい。
In addition, the conversation between the customer and the person in charge is converted into text by voice recognition processing and then processed by the talking
図13は、自然言語を入力とした機械学習について概念的に示す図である。 FIG. 13 is a diagram conceptually showing machine learning using a natural language as an input.
自然言語を入力とする機械学習では、機械学習(サポートベクターマシン(SVM))の入力に合わせた数値ベクトル化を行うために、入力テキストに対する素性計算が行われる。すなわち、学習時や判定時に、入力テキストに対して、機械学習の入力に合わせた数値ベクトル化を行う必要がある。このような素性計算としては、例えば、文章に単語が含まれているかどうかのみを考慮し、単語の並び方などは考慮しないモデル(bag-of-words)が用いられるのが一般的である。 In machine learning using natural language as input, feature calculation is performed on input text in order to perform numerical vectorization in accordance with the input of machine learning (support vector machine (SVM)). That is, at the time of learning or determination, it is necessary to perform numerical vectorization corresponding to the input of machine learning for the input text. As such feature calculation, for example, a model (bag-of-words) that considers only whether words are included in a sentence and does not consider how words are arranged is generally used.
図14は、bag-of-wordsの具体例を示す図である。 FIG. 14 is a diagram illustrating a specific example of bag-of-words.
bag-of-wordsでは、文章に単語が含まれていれば、その単語に対応する数値を1とし、文章に単語が含まれているか否かを表現する入力ベクトルが計算される。入力テキストが「インターネットで定期預金の解約はできますか」であるとすると、入力テキストに対して形態素解析が行われる。 In bag-of-words, if a sentence contains a word, the numerical value corresponding to the word is set to 1, and an input vector expressing whether or not the sentence contains a word is calculated. If the input text is “Can I cancel my time deposit on the Internet?”, Morphological analysis is performed on the input text.
具体的には、図14に示すように、大量のテキストの形態素解析により、テキストに出現する単語をカバーするようにリスト化され、各単語に単語番号が割り当てられた単語リストが事前に生成される。そして、単語リストに含まれる単語のうち、入力テキストに出現する単語の単語番号に対応する入力ベクトルの値が「1」となり。入力テキストに出現しない単語の単語番号に対応する入力ベクトルの値が「0」となる。 Specifically, as shown in FIG. 14, a morphological analysis of a large amount of text generates a list in advance so that words appearing in the text are covered and a word number is assigned to each word. The Then, among the words included in the word list, the value of the input vector corresponding to the word number of the word appearing in the input text is “1”. The value of the input vector corresponding to the word number of a word that does not appear in the input text is “0”.
なお、形態素解析の代わりに、品詞を用いるbag-of-posなどの素性計算方法、bag-of-wordsとbag-of-posとを組み合わせた素性計算も用いてもよい。 Instead of morphological analysis, feature calculation methods such as bag-of-pos using parts of speech, or feature calculation combining bag-of-words and bag-of-pos may be used.
話し終わり判定モデル15での処理のために、対話の音声を音声認識処理によりテキスト化した音声認識結果テキストを形態素解析し、形態素解析の結果からbag-of-wordsなどで素性計算を行うことが考えられる。
For the processing by the speech
ここで、音声認識処理に誤りが生じたとする。例えば、「インターネットで定期預金の解約はできますか」という音声に対して、図15に示すように、「インターネットで敵よ金の害はできますか」と誤った音声認識が行われたとする。このような誤った音声認識結果テキストに対して形態素解析が行われ、入力ベクトルが計算されると、誤りが蓄積され、正しい入力音声を反映した素性計算を行うことができない。 Here, it is assumed that an error has occurred in the speech recognition process. For example, in response to a voice saying “Can I cancel my time deposit on the Internet?”, As shown in FIG. . When morphological analysis is performed on such an erroneous speech recognition result text and an input vector is calculated, errors are accumulated, and the feature calculation reflecting the correct input speech cannot be performed.
このように、音声認識結果を機械学習の入力とする従来方法では、誤った形態素単位となりやすいという問題がある。このような問題が生じる原因としては、音声認識処理に用いられる音声認識辞書と、形態素解析に用いられる形態素解析辞書とが異なる場合が多く、これらの辞書に登録される単語の違いにより不整合が生じることがある。また、別の原因としては、形態素解析は、人が読める正常な文章を対象にしているため、音声認識結果テキストの誤りにより、誤った形態素解析が行われることがある。 As described above, the conventional method using the speech recognition result as an input for machine learning has a problem that it is likely to be an erroneous morpheme unit. The cause of such a problem is that the speech recognition dictionary used for speech recognition processing is often different from the morpheme analysis dictionary used for morpheme analysis, and inconsistencies are caused by differences in words registered in these dictionaries. May occur. Another reason is that the morphological analysis is performed on a normal sentence that can be read by humans, and therefore an erroneous morphological analysis may be performed due to an error in the speech recognition result text.
また、音声認識結果を機械学習の入力とする従来方法では、音声認識処理に誤りが生じると、その誤りを含んだまま素性計算を行うため、正しい入力音声を反映する素性にならないという問題がある。 Further, in the conventional method in which the speech recognition result is input to machine learning, if an error occurs in the speech recognition processing, the feature calculation is performed while the error is included, and thus there is a problem that the feature does not reflect the correct input speech. .
そこで、本発明においては、図16に示すように、音声認識処理の結果得られる、N位候補の単語系列(N−best結果)を、機械学習での素性計算(bag-of-wordsなど)に用いる。 Therefore, in the present invention, as shown in FIG. 16, a word sequence (N-best result) of the N-th candidate obtained as a result of the speech recognition processing is used to calculate a feature (eg, bag-of-words) in machine learning. Used for.
音声認識処理では、音声認識辞書に登録されている登録(品詞情報なども含む)の組み合わせの中で、最も入力音声に近い単語列を探索するという処理が行われる。そのため、音声認識処理の結果として、単語(品詞情報なども含む)の列を得ることができる。また、入力音声への近さの順に、1位候補以外のN位候補までを得ることができる。そのため、仮に、1位候補が誤りであっても、N位候補内に正しい単語が含まれる可能性が高くなる。 In the speech recognition process, a process of searching for a word string closest to the input speech among combinations of registrations (including part-of-speech information and the like) registered in the speech recognition dictionary is performed. Therefore, as a result of the speech recognition process, a sequence of words (including part-of-speech information) can be obtained. In addition, it is possible to obtain up to N-th candidates other than the first candidate in order of proximity to the input voice. Therefore, even if the first candidate is incorrect, there is a high possibility that a correct word is included in the N candidate.
このように本発明においては、形態素解析処理を行わず、音声認識処理の結果得られる、N位候補の単語系列を用いる。そのため、形態素解析による誤りが生じず、誤りも含めた音声認識処理の結果がそのまま素性に反映される。また、形態素解析を行わないため、処理量の削減を図ることができる。また、形態素解析を行わないため、形態素解析辞書を用意する必要がない。また、N位候補までの音声認識結果を素性に反映させるため、1位候補に音声認識誤りが生じても、N位候補内に正しい単語が含まれている可能性が高く、それらを素性計算に反映することができる。 As described above, in the present invention, the word sequence of the N-th candidate obtained as a result of the speech recognition process is used without performing the morphological analysis process. For this reason, an error due to morphological analysis does not occur, and the result of the speech recognition process including the error is directly reflected in the feature. In addition, since morphological analysis is not performed, the amount of processing can be reduced. Further, since morphological analysis is not performed, it is not necessary to prepare a morphological analysis dictionary. In addition, since the speech recognition results up to the Nth candidate are reflected in the feature, even if a speech recognition error occurs in the first candidate, there is a high possibility that the Nth candidate contains a correct word, and these are calculated. Can be reflected.
実施形態では特に触れていないが、話し終わり判定装置10として機能するコンピュータが行う各処理を実行するためのプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMやDVD−ROMなどの記録媒体であってもよい。
Although not particularly mentioned in the embodiment, a program for executing each process performed by a computer functioning as the speech
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。 Although the above embodiments have been described as representative examples, it will be apparent to those skilled in the art that many changes and substitutions can be made within the spirit and scope of the invention. Therefore, the present invention should not be construed as being limited by the above-described embodiments, and various modifications and changes can be made without departing from the scope of the claims. For example, it is possible to combine a plurality of constituent blocks described in the configuration diagram of the embodiment into one, or to divide one constituent block.
10,10A,10B,10C 話し終わり判定装置
11 判定部
12,12C 学習データ生成部
13 話し終わり学習データ
14 判定モデル生成部
15 話し終わり判定モデル
10, 10A, 10B, 10C Talk
Claims (11)
対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定する判定部と、
対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルの機械学習に用いる学習データを、前記判定部の判定結果に基づき生成する学習データ生成部と、を備えることを特徴とする話し終わり判定装置。 An end-of-speech determination device that determines whether or not an utterance in a dialogue by a plurality of speakers is an end-of-speaker utterance,
A determination unit that determines whether or not the utterance in the dialogue is an utterance at the end of the speech based on the presence or absence of a change of speakers in the dialogue ;
A learning data generation unit that generates learning data used for machine learning of a speech end determination model for determining whether or not an utterance in a dialogue is a speech at the end of a speech, based on a determination result of the determination unit Talking end judgment device.
前記学習データ生成部は、対話における発話が話し終わりの発話であるか否かが、前記判定部と前記話し終わり判定モデルとで一致する判定結果を、前記学習データに追加することを特徴とする話し終わり判定装置。 In the talk end judging device according to claim 1 ,
The learning data generation unit is configured to add, to the learning data, a determination result in which whether the utterance in the dialogue is an utterance at the end of a conversation matches between the determination unit and the end-of-speech determination model. End of talk determination device.
前記話し終わり判定モデルを用いて、前記対話における発話が話者の話し終わりの発話であるか否かを判定し、判定結果を出力することを特徴とする話し終わり判定装置。 In the talk end judging device according to claim 1 or 2 ,
An end-of-speech determination device that determines whether or not an utterance in the dialogue is an end-of-speaker utterance using the end-of-speech determination model and outputs a determination result.
対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定する判定部を備え、 A determination unit that determines whether or not the utterance in the dialog is an end-of-speech utterance based on the presence or absence of a speaker change in the dialog;
前記判定部は、前記対話における発話からフィラーのみの発話を取り除いた発話を前記判定の対象とすることを特徴とする話し終わり判定装置。 The determination unit is a speech end determination device characterized in that an utterance obtained by removing only the filler utterance from the utterance in the dialogue is the target of the determination.
対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定する判定部を備え、 A determination unit that determines whether or not the utterance in the dialog is an end-of-speech utterance based on the presence or absence of a speaker change in the dialog;
前記判定部の判定結果に基づき生成された学習データの機械学習により生成された、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを用いて、前記対話における発話が話者の話し終わりの発話であるか否かを判定し、判定結果を出力することを特徴とする話し終わり判定装置。 An utterance in the dialogue is generated by using a speech end determination model for determining whether the utterance in the dialogue is an utterance at the end of the conversation, which is generated by machine learning of the learning data generated based on the determination result of the determination unit. A speech end determination device characterized by determining whether or not the speech is at the end of a speaker's speech and outputting a determination result.
対話における発話の話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定するステップと、
対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルの機械学習に用いる学習データを、前記判定の結果に基づき生成するステップと、を含むことを特徴とする話し終わり判定方法。 An end-of-speech determination method in an end-of-speech determination device that determines whether an utterance in a dialogue by a plurality of speakers is an end-of-speaker utterance,
Determining whether the utterance in the dialogue is an end-of-speech utterance based on the presence or absence of the change of the speaker in the dialogue; and
Generating end-of-speech data used for machine learning of an end-of-speech determination model for determining whether or not an utterance in a dialogue is an end-of-speech utterance. Method.
対話における発話が話し終わりの発話であるか否かが、前記話者の交代の有無に基づく判定と前記話し終わり判定モデルとで一致する判定結果を、前記学習データに追加することを特徴とする話し終わり判定方法。 The method for determining the end of a conversation according to claim 6.
Whether or not the utterance in the dialogue is an utterance at the end of the talk is added to the learning data, a judgment result that matches the judgment based on the presence or absence of the change of the speaker and the talk end judgment model. End of talk determination method.
前記話し終わり判定モデルを用いて、前記対話における発話が話者の話し終わりの発話であるか否かを判定し、判定結果を出力するステップをさらに含むことを特徴とする話し終わり判定方法。 A speech end determination method, further comprising: determining whether or not an utterance in the dialogue is an utterance at the end of a speaker's speech using the speech end determination model and outputting a determination result.
対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定するステップを含み、 Determining whether the utterance in the dialogue is an end-of-speech utterance based on the presence or absence of a speaker change in the dialogue; and
前記対話における発話からフィラーのみの発話を取り除いた発話を前記判定の対象とすることを特徴とする話し終わり判定方法。 A speech end determination method characterized in that an utterance obtained by removing an utterance of only a filler from an utterance in the dialog is the target of the determination.
対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定するステップと、 Determining whether the utterance in the dialogue is an end-of-speech utterance based on the presence or absence of a change of speakers in the dialogue;
前記判定の結果に基づき生成された学習データの機械学習により生成された、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを用いて、前記対話における発話が話者の話し終わりの発話であるか否かを判定し、判定結果を出力するステップと、を含むことを特徴とする話し終わり判定方法。 The utterance in the dialog is a speaker by using a speech end determination model for determining whether or not the utterance in the dialog is an utterance at the end of the conversation, which is generated by machine learning of the learning data generated based on the determination result. Determining whether or not the speech is at the end of the speech, and outputting a determination result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017021606A JP6576968B2 (en) | 2017-02-08 | 2017-02-08 | End-of-speech determination device, end-of-speech determination method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017021606A JP6576968B2 (en) | 2017-02-08 | 2017-02-08 | End-of-speech determination device, end-of-speech determination method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018128575A JP2018128575A (en) | 2018-08-16 |
JP6576968B2 true JP6576968B2 (en) | 2019-09-18 |
Family
ID=63172906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017021606A Active JP6576968B2 (en) | 2017-02-08 | 2017-02-08 | End-of-speech determination device, end-of-speech determination method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6576968B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7007617B2 (en) * | 2018-08-15 | 2022-01-24 | 日本電信電話株式会社 | End-of-speech judgment device, end-of-speech judgment method and program |
US11922927B2 (en) * | 2018-08-15 | 2024-03-05 | Nippon Telegraph And Telephone Corporation | Learning data generation device, learning data generation method and non-transitory computer readable recording medium |
WO2020121616A1 (en) * | 2018-12-11 | 2020-06-18 | 日本電気株式会社 | Processing system, processing method, and program |
CN111416833B (en) * | 2019-01-08 | 2024-02-09 | 北京京东尚科信息技术有限公司 | Method and device for judging session end, electronic equipment and readable medium |
WO2021255840A1 (en) * | 2020-06-16 | 2021-12-23 | 日本電信電話株式会社 | Estimation method, estimation device, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61239358A (en) * | 1985-04-15 | 1986-10-24 | Sharp Corp | Documentation system by voice input |
-
2017
- 2017-02-08 JP JP2017021606A patent/JP6576968B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018128575A (en) | 2018-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6576968B2 (en) | End-of-speech determination device, end-of-speech determination method, and program | |
JP5459214B2 (en) | Language model creation device, language model creation method, speech recognition device, speech recognition method, program, and recording medium | |
JP4786384B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP6654611B2 (en) | Growth type dialogue device | |
KR102097710B1 (en) | Apparatus and method for separating of dialogue | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
EP2645364B1 (en) | Spoken dialog system using prominence | |
JP5506738B2 (en) | Angry emotion estimation device, anger emotion estimation method and program thereof | |
JP7230806B2 (en) | Information processing device and information processing method | |
JP5731998B2 (en) | Dialog support device, dialog support method, and dialog support program | |
JP7007617B2 (en) | End-of-speech judgment device, end-of-speech judgment method and program | |
CN112908308B (en) | Audio processing method, device, equipment and medium | |
JP2015049254A (en) | Voice data recognition system and voice data recognition method | |
JP2019197182A (en) | Voice interaction system, voice interaction method and program | |
JP6755633B2 (en) | Message judgment device, message judgment method and program | |
JP5342629B2 (en) | Male and female voice identification method, male and female voice identification device, and program | |
JP6580281B1 (en) | Translation apparatus, translation method, and translation program | |
JP2010197644A (en) | Speech recognition system | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Tan et al. | Addressing accent mismatch In Mandarin-English code-switching speech recognition | |
JP6615803B2 (en) | Business determination device, business determination method and program | |
JP6526602B2 (en) | Speech recognition apparatus, method thereof and program | |
JP7177348B2 (en) | Speech recognition device, speech recognition method and program | |
JP7035476B2 (en) | Speech processing program, speech processor, and speech processing method | |
JP4877112B2 (en) | Voice processing apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180507 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6576968 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |