JP6590617B2 - Information processing method and apparatus - Google Patents
Information processing method and apparatus Download PDFInfo
- Publication number
- JP6590617B2 JP6590617B2 JP2015188907A JP2015188907A JP6590617B2 JP 6590617 B2 JP6590617 B2 JP 6590617B2 JP 2015188907 A JP2015188907 A JP 2015188907A JP 2015188907 A JP2015188907 A JP 2015188907A JP 6590617 B2 JP6590617 B2 JP 6590617B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- output
- event
- sound
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 6
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000013500 data storage Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 32
- 230000000694 effects Effects 0.000 description 26
- 238000012937 correction Methods 0.000 description 21
- 238000000034 method Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、自動対話システムと人間との対話に係る対話コーパスを生成するための技術に関する。 The present invention relates to a technique for generating a dialogue corpus relating to a dialogue between an automatic dialogue system and a human.
自動対話システムと人間との対話を記録して対話コーパスを生成し、対話コーパスを解析することで人間の特性や自動対話システムの問題を明らかにして、自動対話システムが提供する対話の品質を改善することが行われている。ここでいう対話の品質の指標としては、効率・時間、分かりやすさ、楽しさ、快適さなどがある。 The dialogue between the automatic dialogue system and the human being is recorded and a dialogue corpus is generated. By analyzing the dialogue corpus, human characteristics and problems of the automatic dialogue system are clarified, and the quality of the dialogue provided by the automatic dialogue system is improved. To be done. The dialogue quality indicators here include efficiency, time, ease of understanding, enjoyment, and comfort.
従来技術として、対話コーパスを生成するために、事前に登録されている対話例を示すスクリプトに基づいて発話テキストを順次出力し、対話履歴を対話ログデータとして登録する対話ログデータベースにも同時に登録し、発話テキストの合成音声の出力に応じた発話者の音声データを記録し、後に当該音声データに基づき対話ログデータベースにおける発話者の対話部分をテキスト化する技術が存在している。 As a conventional technology, in order to generate a dialogue corpus, utterance texts are sequentially output based on a script that shows pre-registered dialogue examples, and the dialogue history is also registered in the dialogue log database, which is registered as dialogue log data. There is a technique for recording speech data of a speaker according to the output of synthesized speech of speech text, and then texting the dialogue part of the speaker in the dialogue log database based on the speech data.
この従来技術では、合成音声の出力開始時刻と出力終了時刻をも記録することが示されているが、音声合成出力を行うユニットによって直接出力開始時刻及び出力終了時刻が記録されている。 This prior art shows that the output start time and output end time of synthesized speech are also recorded, but the output start time and output end time are recorded directly by the unit that performs speech synthesis output.
しかしながら、一般的に、音声合成出力を行うユニット(より詳しくは音声合成出力のためのデバイスドライバ)内部にバッファが存在するため、音声合成出力のイベント発生時刻と実際に人間に出力される時刻との間に、数十ミリ秒から数百ミリ秒の差が発生してしまう。この差は自動対話システムの負荷状況に依存して揺らぐため、音声合成出力のイベント発生時刻のログ記録から、実際の出力時刻を特定することはできない。 However, generally, since a buffer exists in a unit that performs speech synthesis output (more specifically, a device driver for speech synthesis output), an event occurrence time of speech synthesis output and a time actually output to a human In the meantime, a difference of several tens of milliseconds to several hundred milliseconds occurs. Since this difference fluctuates depending on the load situation of the automatic dialog system, the actual output time cannot be specified from the log record of the event occurrence time of the speech synthesis output.
音声対話の評価では、自動対話システムからの音の出力から人間の反応までの時間の把握が重要であるが、従来技術ではその時間を正しく把握することができない。 In the evaluation of spoken dialogue, it is important to grasp the time from the sound output from the automatic dialogue system to the human reaction, but the conventional technology cannot correctly grasp the time.
従って、本発明の目的は、一側面として、自動対話システムからの音の出力時刻を正確に把握するための技術を提供することである。 Therefore, the objective of this invention is providing the technique for grasping | ascertaining the output time of the sound from an automatic dialog system correctly as one side surface.
本発明に係る情報処理方法は、(A)自動対話システムからの出力音及びユーザの音声を録音することで得られる録音データから、自動対話システムからの出力音の出力時刻を特定する特定ステップと、(B)特定された出力音の出力時刻を、自動対話システムからの出力音に係るイベントのデータに対応付けてデータ格納部に格納するステップとを含む。 The information processing method according to the present invention includes (A) a specifying step of specifying an output time of an output sound from the automatic dialog system from recording data obtained by recording the output sound from the automatic dialog system and the user's voice; And (B) storing the output time of the identified output sound in the data storage unit in association with the data of the event related to the output sound from the automatic dialogue system.
一側面によれば、自動対話システムからの音の出力時刻を正確に把握できるようになる。 According to one aspect, the output time of the sound from the automatic dialog system can be accurately grasped.
本発明の実施の形態に係るシステムの構成例を図1に示す。 A configuration example of a system according to an embodiment of the present invention is shown in FIG.
本実施の形態に係るシステムは、自動対話システム100と、当該自動対話システム100とネットワークなどによって接続された記録システム200とを含む。自動対話システム100は、対話制御部101と、対話スクリプト格納部102と、タッチパネル表示部103と、タッチパネル入力部104と、タッチパネル105と、音声認識部106と、マイク107と、音声合成部108と、効果音再生部109と、スピーカ110と、音声DB111と、効果音DB112と、イベント記録部113と、出力部114とを有する。
The system according to the present embodiment includes an
対話スクリプト格納部102は、対話のシナリオを表すデータを格納している。対話のシナリオは、例えば「タッチパネルにボタンを表示し、ボタンが押されたら「ピンポン」という効果音を鳴らす」といったものである。
The dialogue
対話制御部101は、対話スクリプト格納部102に格納されている対話シナリオに従って、タッチパネル表示部103、音声認識部106、音声合成部108、効果音再生部109等に処理を指示し、タッチパネル入力部104、音声認識部106等からの入力データに基づき対話シナリオに沿った制御を行う。
The
タッチパネル表示部103は、対話制御部101の指示に基づき、タッチパネル105に画像やテキストを表示する。タッチパネル入力部104は、タッチパネル105に入力されたタッチ内容を対話制御部101に出力する。音声認識部106は、対話制御部101からの指示に基づきマイク107からの音声データを取り込み、音声認識によって音声データをテキストデータに変換して対話制御部101に出力する。なお、本実施の形態では、マイク107により、ユーザの発話のみならずスピーカ110からの出力音をも、音データとして取り込んで、音声認識部106及び出力部114に出力する。
The touch
音声合成部108は、対話制御部101からの指示に基づき音声DB111に格納されている音声メッセージの音声データをスピーカ110から出力させる。効果音再生部109は、対話制御部101からの指示に基づき効果音DB112に格納されている効果音をスピーカ110から出力させる。
The
イベント記録部113は、タッチパネル表示部103、タッチパネル入力部104、音声認識部106、音声合成部108、効果音再生部109等が対話制御部101の指示に応じて処理したイベントに係る処理内容及び処理時刻(開始時刻及び終了時刻)のデータ(イベントデータとも呼ぶ)を、それらから受け取って記録すると共に、出力部114に出力する。処理内容は、例えばメッセージの出力、効果音の出力、データの表示、データの入力、音声の入力(より具体的には音声認識の実行)などである。
The
出力部114は、イベント記録部113からのイベントデータに基づき、音声DB111に格納されている音声データ、効果音DB112に格納されている効果音のデータを読み出し、マイク107からの音データ(以下、録音データと呼ぶ)及びイベントデータと共に、記録システム200に出力する。
The
上で述べたように、本実施の形態に係る自動対話システム100において、マイク107により、ユーザの発話のみならずスピーカ110からの出力音をも、音データとして取り込んで録音データを生成する点、録音データ、イベントデータ及びサウンドデータ(音声DB111に格納されている音声データ及び効果音DB112に格納されている効果音データ)を記録システム200に出力する点が、主に従来と異なる。
As described above, in the
記録システム200は、データ取得部201と、録音データ格納部202と、イベントデータ格納部203と、サウンドデータ格納部204と、選択部205と、照合部206と、データ修正部207と、抽出部208と、音声認識部209と、修正イベントデータ格納部210とを有する。
The
データ取得部201は、自動対話システム100の出力部114から録音データ、イベントデータ及びサウンドデータを取得し、録音データについては録音データ格納部202に格納し、イベントデータについてはイベントデータ格納部203に格納し、サウンドデータについてはサウンドデータ格納部204に格納する。
The
選択部205は、イベントデータ格納部203に格納されているイベントデータに基づきサウンドデータ格納部204に格納されているサウンドデータを読み出し、照合部206に出力する。照合部206は、録音データ格納部202に格納されている録音データとサウンドデータとを照合して一致する部分から、サウンドデータの実際の音出力の開始時刻及び終了時刻を特定し、データ修正部207に出力する。データ修正部207は、選択部205からの出力されるイベントデータを、照合部206からの実際の音出力の開始時刻及び終了時刻のデータに基づき修正して、修正イベントデータ格納部210に格納する。
The
照合部206は、実際の音出力の開始時刻及び終了時刻とを抽出部208に出力する。そうすると、抽出部208は、録音データから、音声メッセージの音声データ及び効果音の音データが存在しない部分であって音声が記録されている部分を抽出し、抽出された部分の録音データを音声認識部209に出力する。
The
音声認識部209は、抽出部208から出力された録音データに対して音声認識処理(話者認識を含む)を実行し、処理結果をデータ修正部207に出力する。データ修正部207は、音声認識部209の処理結果に基づき、選択部205からのイベントデータを修正して、修正イベントデータ格納部210に格納する。
The
より具体的な処理内容については、図2乃至図5を用いて説明する。 More specific processing contents will be described with reference to FIGS.
以下、図2(ア)のようなイベントデータと、図2(イ)のような録音データとが取得された場合を一例として説明する。なお、図2(ア)は、図3に示すようなイベントデータを時系列に並べた状態を表している。 Hereinafter, the case where the event data as shown in FIG. 2A and the recording data as shown in FIG. 2A are acquired will be described as an example. 2A shows a state in which event data as shown in FIG. 3 is arranged in time series.
具体的には、「ポン、という音の後に住所をお話しください。」というメッセージ1を出力する「メッセージ1出力」イベントが時刻aに開始し、時刻bに終了する。その後、「ポン」という効果音xを出力する「効果音x出力」イベントが時刻cに開始し、時刻dに終了する。さらにその後、ユーザによる音声入力が行われて「音声入力1」イベントが時刻eに開始し、時刻fに終了する。自動対話システム100では音声認識部106で音声認識処理が行われるので、音声入力1の内容A「えーと 横浜市中区尾上町 2の27です。」が認識結果として得られる。
Specifically, a “
図2(ア)で示されるイベントのタイミングと、図2(イ)で示される音声波形のタイミングとを比較すると分かるように、音声合成部108による音声出力、効果音再生部109による効果音出力は、それらが開始時刻及び終了時刻として記録したものより遅れて実際の音出力が行われていることが分かる。
As can be seen by comparing the timing of the event shown in FIG. 2A with the timing of the speech waveform shown in FIG. 2A, the sound output by the
一方、音声入力については、音声認識部106が音声入力の開始時刻及び終了時刻を特定した上で音声認識処理を実行するので、この例では、開始時刻及び終了時刻は録音データと完全に一致する。
On the other hand, for voice input, the
本実施の形態では、記録システム200において、図2(ウ)に示すように、録音データに基づき「メッセージ1出力」イベント及び「効果音x出力」イベントの開始時刻及び終了時刻を修正する。さらに、音声認識結果についても修正する。
In the present embodiment, in the
そのための処理フローを図4に示す。まず、データ取得部201は、自動対話システム100の出力部114から、修正前のイベントデータ、録音データ及びサウンドデータを受信し、それぞれイベントデータ格納部203、録音データ格納部202、サウンドデータ格納部204に格納する(ステップS1)。
The processing flow for that is shown in FIG. First, the
そうすると、選択部205は、イベントデータ格納部203に格納されている未処理のイベントのイベントデータを1イベント分読み出す(ステップS3)。そして、選択部205は、読み出したイベントデータのイベント種別が音に係るものであるか否かを判断する(ステップS5)。イベントデータには、タッチパネル105への表示やタッチパネル105への入力に係るイベントのデータも含まれる場合がある。従って、読み出したイベントデータのイベント種別が音に係るものではない場合には、選択部205は、読み出したイベントデータをそのままデータ修正部207に出力して、そのまま修正イベントデータ格納部210に格納させる(ステップS21)。そして処理はステップS23に移行する。
Then, the
一方、読み出したイベントデータのイベント種別が音に係るものであれば、選択部205は、読み出したイベントデータのイベント種別が、音出力に係るものであるか否かを判断する(ステップS7)。音出力のイベントは、音声合成による音声出力のイベントであるか、効果音出力のイベントである。
On the other hand, if the event type of the read event data relates to sound, the
読み出したイベントデータのイベント種別が音出力に係るものであれば、選択部205は、サウンドデータ格納部204から、読み出したイベントデータのイベントに対応するサウンドデータをサウンドデータ格納部204から抽出して、照合部206に出力する(ステップS9)。また、選択部205は、読み出したイベントデータをデータ修正部207に出力する。
If the event type of the read event data is related to sound output, the
照合部206は、録音データ格納部202から録音データを読み出して、当該録音データと選択部205から受け取ったサウンドデータとを照合して、録音データにおける一致部分を特定する(ステップS11)。すなわち、照合部206は、録音データにおける音声出力の開始時刻及び終了時刻を特定して、データ修正部207に出力する。なお、録音データにおける一致部分の開始時刻及び終了時刻とについては、抽出部208に出力する。
The
データ修正部207は、選択部205から受け取ったイベントデータを、録音データにおける音出力(効果音又は音声出力)の開始時刻及び終了時刻で修正した上で、修正イベントデータ格納部210に格納する(ステップS13)。そして処理はステップS23に移行する。
The
図3の最初のイベントの場合には、メッセージ1「ポン、という音の後に住所をお話しください。」が出力されているので、メッセージ1のサウンドデータと録音データ(図2(イ))とを照合して一致する部分の開始時刻aa及び終了時刻bbとが特定され、最初のイベントデータを修正の上、修正イベントデータ格納部210に格納する。例えば図5における最初のイベントデータのように修正される。
In the case of the first event in FIG. 3,
同様に、図3の2番目のイベントの場合には、効果音xが出力されているので、効果音xのサウンドデータと録音データ(図2(イ))とを照合して一致する部分の開始時刻cc及び終了時刻ddとが特定され、2番目のイベントデータを修正の上、修正イベントデータ格納部210に格納する。例えば図5における2番目のイベントデータのように修正される。
Similarly, in the case of the second event in FIG. 3, since the sound effect x is output, the sound data of the sound effect x and the recorded data (FIG. 2 (a)) are collated to match The start time cc and the end time dd are specified, and the second event data is corrected and stored in the corrected event
一方、読み出したイベントデータのイベント種別が音出力に係るものではなく音入力に係るものであれば、選択部205は、読み出したイベントデータを、データ修正部207及び抽出部208に出力する。そして、抽出部208は、録音データ格納部202に格納されている録音データのうち、効果音部分及び出力音声部分以外の録音データを抽出して、音声認識部209に出力する(ステップS15)。より具体的には、処理に係るイベントデータに含まれる開始時刻付近から終了時刻付近までの録音データであって、照合部206で特定された効果音及び出力音声が存在せず、且つ音声が記録されている部分の録音データを抽出する。これにより音声認識処理の認識精度を高めることができる。
On the other hand, if the event type of the read event data is not related to sound output but related to sound input, the
そうすると、音声認識部209は、抽出部208からの録音データに対して音声認識処理を実行し、処理結果をデータ修正部207に出力する(ステップS17)。なお、音声認識処理には、周知の話者認識処理などを含めるものとする。
Then, the
そして、データ修正部207は、選択部205から受け取ったイベントデータを、音声認識部209による音声認識結果に基づき修正した上で、修正イベントデータ格納部210に格納する(ステップS19)。そして処理はステップS23に移行する。
Then, the
図2の例では、「えーと 横浜市中区尾上町 2の27です。」という音声認識結果が得られるので、イベントデータと同じ結果である。しかし、話者認識の結果としてユーザAであるという結果が得られれば、話者認識結果の「ユーザA」というデータも併せて格納されるので、図5の例では、3番目のイベントデータの内容は「AA」と修正される。 In the example of FIG. 2, the speech recognition result “27 of Onoe-cho, Naka-ku, Yokohama-shi, 2” is obtained, so the result is the same as the event data. However, if the result of the speaker recognition is that the user A is obtained, the data “user A” of the speaker recognition result is also stored. Therefore, in the example of FIG. The content is corrected to “AA”.
選択部205は、イベントデータ格納部203に未処理のイベントデータが存在するか否かを判断する(ステップS23)。未処理のイベントデータが存在する場合には処理はステップS3に戻る。一方、未処理のイベントデータが存在しない場合には処理は終了する。
The
以上のような処理を実行することで、音声合成部108や効果音再生部109内部に存在するバッファによる音の出力遅れを修正したイベントデータを生成することができるようになる。
By executing the processing as described above, it is possible to generate event data in which a sound output delay caused by a buffer existing in the
このような正確なイベントデータが自動的に生成できれば、自動対話システムの対話の問題点を明確化し易くなり、自動対話システムの対話の品質の向上を図りやすくなる。 If such accurate event data can be automatically generated, it becomes easy to clarify the problems of the dialog of the automatic dialog system, and it becomes easy to improve the quality of the dialog of the automatic dialog system.
以上本発明の実施の形態について説明したが、本発明はこれに限定されるものではない。図1に示したシステム構成は一例であり、プログラムモジュール構成やファイル構成とは一致しない場合もある。自動対話システム100と記録システム200とは一体化されている場合もある。処理フローについても、処理結果が変わらない限り、処理順番を入れ替えても良いし、並列に実行するようにしても良い。
Although the embodiment of the present invention has been described above, the present invention is not limited to this. The system configuration shown in FIG. 1 is an example, and may not match the program module configuration or the file configuration. The
また、イベントデータについては、開始時刻と終了時刻とを含むような例を示したが、開始時刻と長さ、終了時刻と長さのようなデータにしても良い。さらに、上で述べた例では、修正前のデータを破棄する例を示したが、破棄しないで残すようにしても良い。時刻は、どこかの時点からの相対時刻である場合もある。 Moreover, although the example which included start time and end time was shown about event data, you may make it data, such as start time and length, end time, and length. Further, in the example described above, an example in which data before correction is discarded is shown, but it may be left without being discarded. The time may be a relative time from some point in time.
なお、上で述べた自動対話システム100及び記録システム200は、コンピュータ装置であって、メモリとCPU(Central Processing Unit)とハードディスク・ドライブ(HDD:Hard Disk Drive)と表示装置に接続される表示制御部とリムーバブル・ディスク用のドライブ装置と入力装置とネットワークに接続するための通信制御部とがバスで接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDDに格納されており、CPUにより実行される際にはHDDからメモリに読み出される。CPUは、アプリケーション・プログラムの処理内容に応じて表示制御部、通信制御部、ドライブ装置を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリに格納されるが、HDDに格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ドライブ装置からHDDにインストールされる。インターネットなどのネットワーク及び通信制御部を経由して、HDDにインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU、メモリなどのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The
以上述べた本実施の形態をまとめると以下のようになる。 The above-described embodiment can be summarized as follows.
実施の形態に係る情報処理方法は、(A)自動対話システムからの出力音及びユーザの音声を録音することで得られる録音データから、自動対話システムからの出力音の出力時刻(例えば出力開始時刻及び出力終了時刻、それらのうち重要な方、それらのいずれかと長さなど)を特定する特定ステップと、(B)特定された出力音の出力時刻を、自動対話システムからの出力音に係るイベントのデータに対応付けてデータ格納部に格納するステップとを含む。 The information processing method according to the embodiment includes (A) the output time of the output sound from the automatic dialog system (for example, the output start time) from the recording data obtained by recording the output sound from the automatic dialog system and the user's voice. And an output end time, an important one of them, one of them and the length thereof), and (B) an event related to the output sound from the automatic dialog system, the output time of the specified output sound Storing the data in the data storage unit in association with the data.
録音データを基に、自動対話システムからの出力音の出力時刻を特定すれば、ユーザが実際に出力音を聞いたタイミングを特定できるようになるため、より実際に即した適切な対話の解析を行うことができるようになる。 By specifying the output time of the output sound from the automatic dialog system based on the recorded data, it becomes possible to specify the timing when the user actually heard the output sound, so it is possible to analyze the dialog more appropriately according to the actual situation. Will be able to do.
また、上で述べた情報処理方法は、(C)自動対話システムからの出力音についてのデータを用いて録音データの中でユーザの音声のデータを抽出するステップと、(D)抽出されたユーザの音声のデータに対して音声認識処理を実施し、音声認識処理の結果を、ユーザの音声に係るイベントのデータに対応付けてデータ格納部に格納するステップとをさらに含むようにしても良い。このようにすれば、音声認識処理の精度を向上させることができる。なお、話者認識を併せて行うようにしても良い。 In addition, the information processing method described above includes (C) a step of extracting data of a user's voice from recorded data using data about an output sound from the automatic dialogue system, and (D) an extracted user A voice recognition process may be performed on the voice data, and a result of the voice recognition process may be stored in the data storage unit in association with event data related to the user's voice. In this way, the accuracy of the speech recognition process can be improved. Note that speaker recognition may also be performed.
また、上で述べた特定ステップが、(a1)自動対話システムからの出力音に係るイベントのデータに含まれる出力音種別に基づき、自動対話システムからの出力音のデータを取得するステップと、(a2)自動対話システムからの出力音のデータと比較することで録音データの中で自動対話システムからの出力音を特定するステップとを含むようにしても良い。精度良くタイミングを特定できるようになる。 Further, the specific step described above includes (a1) acquiring output sound data from the automatic dialog system based on the output sound type included in the event data related to the output sound from the automatic dialog system; a2) A step of identifying an output sound from the automatic dialog system in the recording data by comparing with data of the output sound from the automatic dialog system may be included. The timing can be specified with high accuracy.
なお、上記方法をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。 A program for causing a computer to perform the above method can be created, and the program is a computer-readable storage medium or storage device such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, or a hard disk. Stored in The intermediate processing result is temporarily stored in a storage device such as a main memory.
200 記録システム
201 データ取得部
202 録音データ格納部
203 イベントデータ格納部
204 サウンドデータ格納部
205 選択部
206 照合部
207 データ修正部
208 抽出部
209 音声認識部
210 修正イベントデータ格納部
DESCRIPTION OF
Claims (5)
特定された前記出力音の出力時刻を、前記自動対話システムから出力されるイベントのデータであって当該イベントの処理種別を含むデータのうち前記自動対話システムからの出力音に係るイベントのデータに対応付けてデータ格納部に格納するステップと、
を、コンピュータに実行させるためのプログラム。 A specific step of specifying the output time of the output sound from the automatic dialog system from the recording data obtained by recording the output sound from the automatic dialog system and the user's voice;
The specified output time of the output sound corresponds to the event data related to the output sound from the automatic dialog system among the data of the event output from the automatic dialog system and including the processing type of the event And storing in the data storage unit,
A program that causes a computer to execute.
抽出された前記ユーザの音声のデータに対して音声認識処理を実施し、前記音声認識処理の結果を、前記ユーザの音声に係るイベントのデータに対応付けて前記データ格納部に格納するステップと、
を、さらに前記コンピュータに実行させる請求項1記載のプログラム。 Extracting data of the user's voice in the recording data using data about the output sound from the automatic dialogue system;
Performing speech recognition processing on the extracted user's voice data, and storing the result of the voice recognition processing in the data storage unit in association with event data related to the user's voice;
The program according to claim 1, further causing the computer to execute.
前記自動対話システムからの出力音に係るイベントのデータに含まれる出力音種別に基づき、前記自動対話システムからの出力音のデータを取得するステップと、
前記自動対話システムからの出力音のデータと比較することで前記録音データの中で前記自動対話システムからの出力音を特定するステップと、
を含む請求項1又は2記載のプログラム。 The specific step includes
Obtaining output sound data from the automatic dialogue system based on the output sound type included in the event data relating to the output sound from the automatic dialogue system;
Identifying the output sound from the automatic dialog system in the recording data by comparing with the data of the output sound from the automatic dialog system;
The program according to claim 1 or 2, comprising:
特定された前記出力音の出力時刻を、前記自動対話システムから出力されるイベントのデータであって当該イベントの処理種別を含むデータのうち前記自動対話システムからの出力音に係るイベントのデータに対応付けてデータ格納部に格納するステップと、
を含み、コンピュータが実行する情報処理方法。 A specific step of specifying the output time of the output sound from the automatic dialog system from the recording data obtained by recording the output sound from the automatic dialog system and the user's voice;
The specified output time of the output sound corresponds to the event data related to the output sound from the automatic dialog system among the data of the event output from the automatic dialog system and including the processing type of the event And storing in the data storage unit,
An information processing method executed by a computer.
特定された前記出力音の出力時刻を、前記自動対話システムから出力されるイベントのデータであって当該イベントの処理種別を含むデータのうち前記自動対話システムからの出力音に係るイベントのデータに対応付けてデータ格納部に格納する手段と、
を有する情報処理装置。 Means for specifying the output time of the output sound from the automatic dialog system from the recording data obtained by recording the output sound from the automatic dialog system and the user's voice;
The specified output time of the output sound corresponds to the event data related to the output sound from the automatic dialog system among the data of the event output from the automatic dialog system and including the processing type of the event Means for storing in the data storage unit,
An information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015188907A JP6590617B2 (en) | 2015-09-25 | 2015-09-25 | Information processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015188907A JP6590617B2 (en) | 2015-09-25 | 2015-09-25 | Information processing method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017062749A JP2017062749A (en) | 2017-03-30 |
JP6590617B2 true JP6590617B2 (en) | 2019-10-16 |
Family
ID=58428925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015188907A Active JP6590617B2 (en) | 2015-09-25 | 2015-09-25 | Information processing method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6590617B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166785A (en) * | 1999-12-10 | 2001-06-22 | Fujitsu Ltd | Device and method for generating voice talk corpus |
JP2004178087A (en) * | 2002-11-25 | 2004-06-24 | Sanyo Electric Co Ltd | Collection method of dialogue case data used for dialogue system |
JP2007249653A (en) * | 2006-03-16 | 2007-09-27 | Fujitsu Ltd | Processor of markup language information, information processing method and program |
-
2015
- 2015-09-25 JP JP2015188907A patent/JP6590617B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017062749A (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7000268B2 (en) | Information processing equipment, information processing methods, and programs | |
US10629186B1 (en) | Domain and intent name feature identification and processing | |
US8972260B2 (en) | Speech recognition using multiple language models | |
CN106463113B (en) | Predicting pronunciation in speech recognition | |
JP5883014B2 (en) | Method and system for automatic detection of end of recording | |
JP3232289B2 (en) | Symbol insertion device and method | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
JP7230806B2 (en) | Information processing device and information processing method | |
JPWO2016120904A1 (en) | Intention estimation device and intention estimation method | |
WO2016139670A1 (en) | System and method for generating accurate speech transcription from natural speech audio signals | |
JP2014240940A (en) | Dictation support device, method and program | |
JP2004101901A (en) | Speech interaction system and speech interaction program | |
US8170874B2 (en) | Apparatus and method for recognizing speech based on feature parameters of modified speech and playing back the modified speech | |
JP5451982B2 (en) | Support device, program, and support method | |
JP2018185561A (en) | Dialogue support system, dialogue support method, and dialogue support program | |
US9798804B2 (en) | Information processing apparatus, information processing method and computer program product | |
JP6904225B2 (en) | Information processing device | |
JP7098587B2 (en) | Information processing device, keyword detection device, information processing method and program | |
JP6590617B2 (en) | Information processing method and apparatus | |
JP5997813B2 (en) | Speaker classification apparatus, speaker classification method, and speaker classification program | |
JP2011107650A (en) | Voice feature amount calculation device, voice feature amount calculation method, voice feature amount calculation program and voice recognition device | |
JP6867939B2 (en) | Computers, language analysis methods, and programs | |
KR20200053242A (en) | Voice recognition system for vehicle and method of controlling the same | |
US12136417B2 (en) | Domain and intent name feature identification and processing | |
KR101501705B1 (en) | Apparatus and method for generating document using speech data and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6590617 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |