JP6867939B2 - Computers, language analysis methods, and programs - Google Patents
Computers, language analysis methods, and programs Download PDFInfo
- Publication number
- JP6867939B2 JP6867939B2 JP2017243880A JP2017243880A JP6867939B2 JP 6867939 B2 JP6867939 B2 JP 6867939B2 JP 2017243880 A JP2017243880 A JP 2017243880A JP 2017243880 A JP2017243880 A JP 2017243880A JP 6867939 B2 JP6867939 B2 JP 6867939B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- text
- utterance
- continuation character
- utterance continuation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、ユーザが発した音声(言語)を解析し、解析結果に基づいてユーザに対する応答を行う計算機システムに関する。 The present invention relates to a computer system that analyzes a voice (language) emitted by a user and responds to the user based on the analysis result.
近年、施設に設置されたロボット等の対話装置を活用した技術が注目されている。対話装置は、ユーザが発した音声の情報(音声信号)を取得し、音声信号を解析することによってユーザの発話意図を特定する。また、対話装置は、発話意図に応じてユーザに対するコミュニケーションを行い、又は、ユーザに対してサービスを提供する。 In recent years, a technology utilizing a dialogue device such as a robot installed in a facility has attracted attention. The dialogue device acquires voice information (voice signal) uttered by the user and analyzes the voice signal to identify the user's utterance intention. In addition, the dialogue device communicates with the user or provides a service to the user according to the intention of speaking.
サービスの提供又はコミュニケーションを適切に行うためには、ユーザの発話意図を正確に特定する必要がある。ユーザの発話意図を理解する方法として、例えば、特許文献1及び特許文献2に記載の技術が知られている。 In order to properly provide services or communicate, it is necessary to accurately identify the user's utterance intention. As a method of understanding the user's utterance intention, for example, the techniques described in Patent Document 1 and Patent Document 2 are known.
特許文献1には、「音声処理装置は、音声信号を取得する音声入力部と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部と、音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、意図理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。」ことが記載されている。 In Patent Document 1, "The voice processing device is recognized by a voice input unit that acquires a voice signal, a voice recognition unit that performs voice recognition for the voice signal acquired by the voice input unit, and a voice recognition unit. It is equipped with an intention understanding unit that understands the user's intention based on the recognition result and a question unit that asks a question to the user based on the understanding result understood by the intention understanding department. The content of the question to the user will be changed according to the result and the predetermined priority. "
特許文献2には、「解析可能な単位の自然言語文の一部が入力するごとに、各解析処理部で逐次的かつ並列的に解析処理を実行する逐次解析処理部10と、逐次解析処理部の各解析処理部での解析結果に基づいて、対話応答文などの出力を得る出力部3、4とを備える。逐次解析処理部に用意された各処理部は、自らの処理部での直前又はそれより前の過去の解析結果と、他の処理部での直前又はそれより前の過去の解析結果とを取得し、取得した解析結果を参照しながら先読みをしつつ解析結果を得る。」ことが記載されている。 Patent Document 2 describes, "Sequential analysis processing unit 10 that executes analysis processing sequentially and in parallel in each analysis processing unit each time a part of a natural language sentence of an analyzable unit is input, and sequential analysis processing. It is provided with output units 3 and 4 for obtaining an output such as a dialogue response sentence based on the analysis result in each analysis processing unit of the unit. Each processing unit prepared in the sequential analysis processing unit is in its own processing unit. The analysis result of the past immediately before or before and the analysis result of the past immediately before or before at another processing unit are acquired, and the analysis result is obtained while pre-reading while referring to the acquired analysis result. "Is stated.
特許文献1及び特許文献2に記載の技術では、ユーザの発話におけるフィラー及び間が考慮されていない。フィラー及び間が含まれる発話が行われた場合、対話装置は発話の区切れを正しく認識できない。すなわち、処理単位の音声信号(文字列)を特定できない。したがって、フィラー及び間を含む発話が行われた場合、従来の対話装置はユーザの発話意図を正確に特定できない。 In the techniques described in Patent Document 1 and Patent Document 2, fillers and intervals in the user's utterance are not taken into consideration. When an utterance containing a filler and a gap is made, the dialogue device cannot correctly recognize the utterance break. That is, the audio signal (character string) of the processing unit cannot be specified. Therefore, when the utterance including the filler and the interval is performed, the conventional dialogue device cannot accurately identify the user's utterance intention.
本発明は、適切なサービスの提供又はコミュニケーションを行うために、フィラー及び間を考慮した言語解析を実現する装置、方法、及びプログラムを提供する。 The present invention provides devices, methods, and programs that realize fillers and intervening language analysis in order to provide appropriate services or communicate.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、ユーザが発した音声に対応する音声信号を処理する計算機であって、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される通信インタフェースを備え、前記演算装置は、前記通信インタフェースを介して前記音声信号を受信し、前記受信した音声信号を複数の文字列から構成されるテキストに変換し、前記変換されたテキストを解析することによって、前記ユーザの発話が継続中であることを示す発話継続文字列が前記変換されたテキストに含まれるか否かを判定し、前記発話継続文字列が前記変換されたテキストに含まれると判定された場合、前記記憶装置に前記変換されたテキストを蓄積し、前記発話継続文字列が前記変換されたテキストに含まれないと判定された場合、一つ以上の前記変換されたテキストを用いて出力テキストを生成し、前記出力テキストに基づいて、前記受信した音声信号に対応する音声を発した前記ユーザの発話意図を特定し、前記ユーザの発話に対する応答を行う装置に、前記特定されたユーザの発話意図を示す情報を送信することを特徴とする。 A typical example of the invention disclosed in the present application is as follows. That is, it is a computer that processes a voice signal corresponding to a voice uttered by a user, and includes a calculation device, a storage device connected to the calculation device, and a communication interface connected to the calculation device. , The voice signal is received via the communication interface, the received voice signal is converted into a text composed of a plurality of character strings, and the converted text is analyzed to continue the utterance of the user. It is determined whether or not the utterance continuation character string indicating that the utterance is inside is included in the converted text, and when it is determined that the utterance continuation character string is included in the converted text, the storage device stores the utterance continuation character string. When the converted text is accumulated and it is determined that the utterance continuation character string is not included in the converted text, an output text is generated using one or more of the converted texts, and the output is described. Based on the text, the utterance intention of the user who has emitted the voice corresponding to the received voice signal is specified, and information indicating the utterance intention of the specified user is transmitted to the device that responds to the user's utterance. It is characterized by doing.
本発明によれば、フィラー及び間を考慮した言語解析を実現できる。したがって、適切にユーザの発話意図を特定し、サービスの提供又はコミュニケーションを行うことが可能となる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to the present invention, it is possible to realize a language analysis in consideration of fillers and spaces. Therefore, it is possible to appropriately identify the user's utterance intention and provide a service or communicate. Issues, configurations and effects other than those mentioned above will be clarified by the description of the following examples.
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 Hereinafter, examples of the present invention will be described with reference to the drawings. However, the present invention is not construed as being limited to the description of the embodiments shown below. It is easily understood by those skilled in the art that a specific configuration thereof can be changed without departing from the idea or gist of the present invention.
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。 In the configurations of the invention described below, the same or similar configurations or functions are designated by the same reference numerals, and duplicate description will be omitted.
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。 The notations such as "first", "second", and "third" in the present specification and the like are attached to identify the components, and do not necessarily limit the number or order.
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。 The position, size, shape, range, etc. of each configuration shown in the drawings and the like may not represent the actual position, size, shape, range, etc., in order to facilitate understanding of the invention. Therefore, the present invention is not limited to the position, size, shape, range, etc. disclosed in the drawings and the like.
図1は、実施例1の計算機システムの構成例を示す図である。 FIG. 1 is a diagram showing a configuration example of the computer system of the first embodiment.
計算機システムは、計算機100、通信装置101、及び対話装置102から構成される。計算機100及び通信装置101は、ネットワーク105を介して互いに接続される。また、通信装置101及び対話装置102は、図示しない無線ネットワークを介して互いに接続される。なお、通信装置101及び対話装置102は、有線ネットワークを介して接続されてもよい。
The computer system includes a
なお、ネットワーク105は、LAN(Local Area Network)及びWAN(Wide Area Network)等であり、接続方式は無線及び有線のいずれでもよい。
The
対話装置102は、ユーザ103とコミュニケーションを行う装置である。対話装置102は、例えば、ロボット及びタブレット端末等である。対話装置102は、ユーザ103が発する音声を取得する音声取得装置(図示省略)、ユーザ103に対して音声を出力する音声出力装置(図示省略)、及び通信装置101と通信するためのネットワークインタフェース(図示省略)を有する。
The
通信装置101は、計算機100及び対話装置102の間の通信を制御する装置である。通信装置101は、例えば、ルータ及びゲートウェイ装置等である。
The
計算機100は、ユーザ103の発話意図を特定し、発話意図に沿ったコミュニケーションを行うための情報(テキスト)を生成する。計算機100のハードウェア構成は図2を用いて説明する。ここで、テキストは一つ以上の文字列から構成されるデータである。
The
計算機100は、音声処理部110及び言語処理部111を有する。また、計算機100は、発話継続文字列情報130、意図理解情報131、及び回答生成情報132を保持する。
The
発話継続文字列情報130は、発話継続文字列を管理するための情報である。ここで、発話継続文字列は、フィラー及び間を含む発話を検知するための文字列である。後述するように、計算機100は、テキスト中の発話継続文字列の有無に基づいて、ユーザ103の発話が継続しているか否かを判定する。発話継続文字列情報130のデータ構造は図3A及び図3Bを用いて説明する。
The utterance continuation
意図理解情報131は、ユーザ103の発話意図を特定するための情報である。意図理解情報131のデータ構造は図4を用いて説明する。
The
回答生成情報132は、ユーザ103の発話に対する回答を生成するための情報である。回答生成情報132のデータ構造は図5を用いて説明する。
The
音声処理部110は、ユーザ103が発した音声に対応する音声信号をテキストに変換し、また、計算機100が生成したテキストを音声信号に変換する。
The
言語処理部111は、テキストの解析結果に基づいてユーザ103の発話意図を特定し、また、ユーザ103に対する回答を音声として対話装置102から出力するための回答テキストを生成する。言語処理部111は、テキスト受信部120、テキスト送信判定部121、意図理解部122、及び回答生成部123を含む。
The
テキスト受信部120は、音声処理部110が送信したテキストを受信し、テキスト送信判定部121に受信したテキストを送信する。
The
テキスト送信判定部121は、テキスト受信部120からテキストを受信した場合、受信したテキストを解析し、発話継続文字列情報130及び解析結果に基づいて意図理解部122へのテキストの送信タイミングを判定する。また、テキスト送信判定部121は、意図理解部122にテキストを送信する場合、意図理解処理が処理する一つのまとまった音声に対応する出力テキストを生成し、当該出力テキストを意図理解部122に送信する。
When the
意図理解部122は、テキスト送信判定部121から受信した出力テキスト及び意図理解情報131に基づいて、ユーザ103の発話意図を特定するための意図理解処理を実行する。意図理解部122は、処理結果として、ユーザ103の発話意図を示す意図情報(図4参照)を回答生成部123に送信する。
The
回答生成部123は、意図理解部122から送信された意図情報に基づいて回答生成情報132を参照し、対話装置102が出力する回答の回答テキストを生成する。
The
本実施例の計算機システムは、ユーザ103の発話に対する応答として、回答(音声)を出力する。これによって、ユーザ103と対話装置102との間でコミュニケーションが行われる。なお、ユーザ103の発話に対する応答はこれに限定されず、映像及び音楽等の再生、商品の提供、並びに行動の補助等、様々なものが考えられる。
The computer system of this embodiment outputs a response (voice) as a response to the utterance of the
なお、複数の計算機100に各機能部を配置してもよい。例えば、音声処理部110、テキスト受信部120、テキスト送信判定部121、意図理解部122を有する第1計算機と、回答生成部123を有する第2計算機とから構成される計算機システムでもよい。また、計算機100が有する情報は、複数の計算機がアクセス可能なストレージシステムに格納してよい。
In addition, each functional unit may be arranged in a plurality of
なお、計算機100が有する各機能部は、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。
In each functional unit included in the
図2は、実施例1の計算機100のハードウェア構成の一例を示す図である。
FIG. 2 is a diagram showing an example of the hardware configuration of the
計算機100は、プロセッサ200、メモリ201、及びネットワークインタフェース202を有する。各ハードウェア構成は、内部バスを介して互いに接続される。なお、計算機100は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等の記憶装置を有してもよい。また、計算機100は、キーボード、マウス、及びタッチパネル等の入力装置、並びに、ディスプレイ等の出力装置を有してもよい。
The
プロセッサ200は、演算装置であり、メモリ201に格納されるプログラムを実行する。プロセッサ200がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ200が当該機能部を実現するプログラムを実行していることを示す。
The
メモリ201は、記憶装置であり、プロセッサ200が実行するプログラム及びプログラムが使用する情報を格納する。本実施例のメモリ201は、音声処理部110及び言語処理部111を実現するプログラムを格納する。また、メモリ201は、発話継続文字列情報130、意図理解情報131、及び回答生成情報132を格納する。また、メモリ201は、プログラムが使用するワークエリアと、テキストを蓄積するためのバッファを含む。
The
ネットワークインタフェース202は、ネットワークを介して外部装置と接続するためのインタフェースである。
The
図3A及び図3Bは、実施例1の計算機100が保持する発話継続文字列情報130のデータ構造の一例を示す図である。
3A and 3B are diagrams showing an example of a data structure of the utterance continuation
本実施例では、言語の種別毎に発話継続文字列情報130が存在する。図3Aは日本語の発話継続文字列情報130−1を示し、図3Bは英語の発話継続文字列情報130−2を示す。
In this embodiment, the utterance continuation
発話継続文字列情報130は、発話継続文字列301及び位置302から構成されるエントリを一つ以上含む。
The utterance continuation
発話継続文字列301は、発話継続文字列を格納するフィールドである。位置302は、ユーザが発した音声の中で発話継続文字列に対応する音声が出現する位置を格納するフィールドである。本実施例の位置302には、音声信号が変換されたテキストにおける発話継続文字列の位置(検知範囲)が格納される。なお、位置302を用いた処理については実施例2で説明する。
The utterance
本実施例では、発話継続文字列情報130は予め設定されているものとする。発話継続文字列情報130は、管理者等が手動で設定してもよいし、ユーザ103及び対話装置102の会話の履歴を用いた機械学習を実行することによって生成してもよい。
In this embodiment, it is assumed that the utterance continuation
図4は、実施例1の計算機100が保持する意図理解情報131のデータ構造の一例を示す図である。
FIG. 4 is a diagram showing an example of the data structure of the
意図理解情報131は、発話内容401及び意図402から構成されるエントリを一つ以上含む。
The
発話内容401は、発話内容を示すテキストが格納されるフィールドである。意図402は、発話内容401に対応する発話を行ったユーザ103の発話意図を示す情報を格納するフィールドである。以下の説明では、意図402に格納される値を意図情報と記載する。
The
本実施例では、意図理解情報131は予め設定されているものとする。意図理解情報131は、管理者等が手動で設定する。
In this embodiment, it is assumed that the
図5は、実施例1の計算機100が保持する回答生成情報132のデータ構造の一例を示す図である。
FIG. 5 is a diagram showing an example of the data structure of the
回答生成情報132は、意図501及び回答内容502から構成されるエントリを一つ以上含む。
The
意図501は、意図402と同一のフィールドである。回答内容502は、対話装置102が音声として出力する回答のテキスト(回答テキスト)を格納するフィールドである。なお、一つの発話意図に対して、複数の回答テキストが対応づけられていてもよい。この場合、ランダムに回答テキストを選択する方法、又は、ユーザ103の属性等に基づいて回答テキストを選択する方法等が考えられる。
図6は、実施例1のテキスト送信判定部121が実行する処理の一例を説明するフローチャートである。
FIG. 6 is a flowchart illustrating an example of processing executed by the text
テキスト送信判定部121は、テキスト受信部120からテキストを受信する(ステップS101)。受信したテキストは、ワークエリアに一時的に格納される。
The text
次に、テキスト送信判定部121は、テキストに対して形態素解析を実行する(ステップS102)。形態素解析は公知の技術を用いればよいため詳細な説明を省略する。
Next, the text
次に、テキスト送信判定部121は、形態素解析の結果及び発話継続文字列情報130に基づいて、ユーザ103が発した音声に対応するテキストの末尾に発話継続文字列が存在するか否かを判定する(ステップS103)。
Next, the text
具体的には、テキスト送信判定部121は、発話継続文字列情報130の各エントリの発話継続文字列301と、テキストの末尾に出現する文字列とを比較し、発話継続文字列301に一致する文字列がテキストの末尾に存在するか否かを判定する。
Specifically, the text
テキストの末尾に発話継続文字列が存在しないと判定された場合、テキスト送信判定部121は、発話の終了と判定する。テキスト送信判定部121は、メモリ201(ワークエリア及びバッファ)に格納されるテキストを用いて出力テキストを生成し、意図理解部122に出力テキストを送信する(ステップS108)。その後、テキスト送信判定部121は、処理を終了する。
When it is determined that the utterance continuation character string does not exist at the end of the text, the text
具体的には、テキスト送信判定部121は、ワークエリア及びバッファに格納される各テキストから発話継続文字列を削除し、時系列順にテキストを結合することによって出力テキストを生成する。出力テキストが生成された後、メモリ201に格納されるテキストは削除される。なお、テキスト送信判定部121は、出力テキストの生成時にテキストを削除してもよいし、一連の処理が完了した後にテキストを削除してもよい。
Specifically, the text
なお、バッファにテキストが格納されていない場合、テキスト送信判定部121は、ワークエリアに格納されるテキストを出力テキストとして生成する。
When the text is not stored in the buffer, the text
テキストの末尾に発話継続文字列が存在すると判定された場合、テキスト送信判定部121は、発話が継続中であると判定し、バッファに受信したテキストを格納する(ステップS104)。すなわち、意味理解処理が実行される前のテキストがメモリ201に蓄積される。
When it is determined that the utterance continuation character string exists at the end of the text, the text
次に、テキスト送信判定部121は、タイマが起動中であるか否かを判定する(ステップS105)。本実施例のタイマは、意図理解部122へのテキストの出力タイミングを調整するための待ち時間を計測する。
Next, the text
タイマが起動中でないと判定された場合、テキスト送信判定部121は、タイマを起動し(ステップS107)、その後、ステップS101に戻る。この場合、テキスト送信判定部121は、テキストを受信するまで待ち状態に移行する。
If it is determined that the timer is not running, the text
タイマが起動中であると判定された場合、テキスト送信判定部121は、タイマが計測した待ち時間が閾値より大きいか否かを判定する(ステップS106)。
When it is determined that the timer is running, the text
待ち時間が閾値以下であると判定された場合、テキスト送信判定部121は、計測時間を初期化し、待ち時間の計測を継続する。その後、テキスト送信判定部121は、ステップS101に戻る。この場合、テキスト送信判定部121は、次のテキストを受信するまで待ち状態に移行する。
When it is determined that the waiting time is equal to or less than the threshold value, the text
待ち時間が閾値より大きいと判定された場合、テキスト送信判定部121は、発話の終了と判定する。さらに、テキスト送信判定部121は、メモリ201(ワークエリア及びバッファ)に格納されるテキストを用いて出力テキストを生成し、意図理解部122に出力テキストを送信する(ステップS108)。このとき、テキスト送信判定部121は、タイマを停止する。その後、テキスト送信判定部121は、処理を終了する。
When it is determined that the waiting time is larger than the threshold value, the text
次に、計算機システムにおける処理の流れについて説明する。図7A及び図7Bは、実施例1の計算機システムにおける処理の流れの一例を示すシーケンス図である。図7Aは、発話継続文字列が含まれる発話が行われた場合の処理の流れを示す。図7Bは、発話継続文字列が含まれない発話が行われた場合の処理の流れを示す。 Next, the processing flow in the computer system will be described. 7A and 7B are sequence diagrams showing an example of a processing flow in the computer system of the first embodiment. FIG. 7A shows a processing flow when an utterance including an utterance continuation character string is performed. FIG. 7B shows a processing flow when an utterance that does not include the utterance continuation character string is performed.
まず、図7Aに示す処理の流れについて説明する。 First, the flow of processing shown in FIG. 7A will be described.
対話装置102は、ユーザ103が発した音声を取得し、当該音声の音声信号を生成する。また、対話装置102は、通信装置101と通信を行い、ネットワーク105を介して接続される計算機100に音声信号を送信する(ステップS201)。
The
計算機100の音声処理部110は、対話装置102から送信された音声信号をテキストに変換し、テキストをテキスト受信部120に送信する(ステップS202)。当該テキストは、テキスト受信部120からテキスト送信判定部121に送信される。なお、テキストの末尾には発話継続文字列が存在するものとする。
The
テキスト送信判定部121は、テキストを受信した場合、図6に示す処理を実行する。テキストの末尾には発話継続文字列が存在するため、テキスト送信判定部121は、受信したテキストをメモリ201に蓄積する(ステップS203)。すなわち、バッファにテキストが格納される。また、テキスト送信判定部121は、タイマが起動していないため、タイマを起動する(ステップS204)。
When the text
対話装置102は、待ち時間が閾値より大きくなった後、発話継続文字列が末尾に存在するテキストに対応する新たな音声をユーザ103から取得し、当該音声の音声信号を生成する。対話装置102は、音声信号を計算機100に送信する(ステップS205)。
After the waiting time becomes larger than the threshold value, the
音声処理部110は、受信した音声信号をテキストに変換し、テキスト受信部120を介して、テキスト送信判定部121にテキストを送信する(ステップS206)。
The
テキスト送信判定部121は、テキストの末尾に発話文字列が存在するため、受信したテキストをメモリ201に蓄積する(ステップS207)。この時点では、タイマが起動中であり、かつ、待ち時間が閾値より大きいため、テキスト送信判定部121は、バッファに格納される二つのテキストを用いて出力テキストを生成し、意図理解部122に当該出力テキストを送信する(ステップS208)。
Since the utterance character string exists at the end of the text, the text
なお、テキストの末尾に発話文字列が存在しない場合、テキスト送信判定部121は、ワークエリア及びバッファの各々に格納されるテキストを用いて出力テキストを生成する。
If the utterance character string does not exist at the end of the text, the text
意図理解部122は、出力テキストを受信した場合、意図理解処理を実行する(ステップS209)。
When the
意図理解処理では、意図理解部122は、意図理解情報131の発話内容401が出力テキストと一致するエントリを検索する。意図理解部122は、検索されたエントリの意図402に格納される値を処理結果として取得する。このとき、意図理解部122は、類似辞書等の意図理解情報131以外の情報を用いてもよい。
In the intention understanding process, the
意図理解部122は、回答生成部123に意図情報を送信する(ステップS210)。
The
回答生成部123は、意図情報を受信した場合、回答生成処理を実行する(ステップS211)。
When the
回答生成処理では、回答生成部123は、回答生成情報132を参照し、意図501が意図情報に一致するエントリを検索する。回答生成部123は、検索されたエントリの回答内容502に格納される回答テキストを取得する。
In the answer generation process, the
回答生成部123は、音声処理部110に回答テキストを送信する(ステップS212)。
The
音声処理部110は、回答テキストを音声信号に変換し、ネットワーク105を介して対話装置102に音声信号を送信する(ステップS213)。
The
図7Aに示すように、計算機100は、フィラー及び間を含む発話を検知するための発話継続文字列がテキストの末尾に存在する場合、発話の継続中であると判定し、テキストをメモリ201(バッファ)に蓄積する。計算機100は、発話の終了を検知した場合、メモリ201(ワークエリア及びバッファ)に格納される一つ以上のテキストを用いて、意図理解処理の処理単位となる出力テキストを生成する。
As shown in FIG. 7A, when the utterance continuation character string for detecting the utterance including the filler and the interval exists at the end of the text, the
このように、計算機100は、フィラー及び間を考慮して、意図理解処理の処理単位となる出力テキストを生成することによって、ユーザ103の発話意図を正確に特定できる。したがって、計算機100は、ユーザ103の発話意図に沿った回答を生成できる。
In this way, the
次に、図7Bに示す処理の流れについて説明する。 Next, the flow of processing shown in FIG. 7B will be described.
対話装置102は、ユーザ103が発した音声を取得し、当該音声の音声信号を生成する。また、対話装置102は、通信装置101と通信を行い、ネットワーク105を介して接続される計算機100に音声信号を送信する(ステップS301)。
The
計算機100の音声処理部110は、対話装置102から送信された音声信号をテキストに変換し、テキストをテキスト受信部120に送信する(ステップS302)。当該テキストは、テキスト受信部120からテキスト送信判定部121に送信される。なお、テキストの末尾には発話継続文字列は存在しないものとする。
The
テキスト送信判定部121は、テキストを受信した場合、図6に示す処理を実行する。テキストの末尾には発話継続文字列が存在しないため、テキスト送信判定部121は、ワークエリアに格納されるテキストを出力テキストとして生成し、意図理解部122に当該出力テキストを送信する(ステップS303)。
When the text
意図理解部122は、出力テキストを受信した場合、意図理解処理を実行する(ステップS304)。意図理解部122は、回答生成部123に意図情報を送信する(ステップS305)。
When the
回答生成部123は、意図情報を受信した場合、回答生成処理を実行する(ステップS306)。回答生成部123は、音声処理部110に回答テキストを送信する(ステップS307)。
When the
音声処理部110は、回答テキストを音声信号に変換し、ネットワーク105を介して対話装置102に音声信号を送信する(ステップS308)。
The
図7Bに示すように、計算機100は、発話継続文字列がテキストの末尾に存在しない場合、従来技術と同様の処理手順にしたがって処理を実行する。
As shown in FIG. 7B, when the utterance continuation character string does not exist at the end of the text, the
本実施例では、テキストを蓄積する記憶領域としてバッファを設けているが、ワークエリアに複数のテキストを格納してもよい。この場合、バッファを設けなくてもよい。 In this embodiment, a buffer is provided as a storage area for storing texts, but a plurality of texts may be stored in the work area. In this case, it is not necessary to provide a buffer.
実施例1によれば、計算機100は、フィラー及び間が含まれる発話が行われた場合であっても、意図理解処理の処理単位となる一つのまとまった音声に対応する出力テキストを生成できる。計算機100は、出力テキストを入力とする意図理解処理を実行することによって、ユーザ103の発話意図を正しく特定できる。したがって、対話装置102は、ユーザ103の発話意図に沿った適切な回答(音声)を出力することができる。
According to the first embodiment, the
実施例2では、テキスト送信判定部121が実行する処理が一部異なる。以下実施例1との差異を中心に実施例2について説明する。
In the second embodiment, the processing executed by the text
実施例2の計算機システムの構成は、実施例1の計算機システムの構成と同一である。実施例2の計算機100のハードウェア構成及びソフトウェア構成は、実施例1の計算機100のハードウェア構成及びソフトウェア構成と同一である。また、実施例2の計算機100が保持する情報のデータ構造は、実施例1の計算機100が保持する情報のデータ構造と同一である。
The configuration of the computer system of the second embodiment is the same as the configuration of the computer system of the first embodiment. The hardware configuration and software configuration of the
図8は、実施例2のテキスト送信判定部121が実行する処理の一例を説明するフローチャートである。
FIG. 8 is a flowchart illustrating an example of processing executed by the text
ステップS101及びステップS102の処理は、実施例1と同一の処理である。 The processes of steps S101 and S102 are the same as those of the first embodiment.
ステップS102の処理が実行された後、テキスト送信判定部121は、テキストに発話継続文字列が含まれるか否かを判定する(ステップS151)。
After the process of step S102 is executed, the text
具体的には、テキスト送信判定部121は、形態素解析の結果及び発話継続文字列情報130の発話継続文字列301に基づいて、テキストに含まれる発話継続文字列を検索する。
Specifically, the text
テキストに発話継続文字列が含まれないと判定された場合、テキスト送信判定部121は、メモリ201(ワークエリア及びバッファ)に格納されるテキストを用いて出力テキストを生成し、意図理解部122に出力テキストを送信する(ステップS108)。その後、テキスト送信判定部121は、処理を終了する。
When it is determined that the text does not include the utterance continuation character string, the text
テキストに発話継続文字列が含まれると判定された場合、テキスト送信判定部121は、発話継続文字列が検知範囲に存在するか否かを判定する(ステップS152)。
When it is determined that the text includes the utterance continuation character string, the text
具体的には、テキスト送信判定部121は、テキストに含まれる発話継続文字列の位置を特定する。テキスト送信判定部121は、ステップS103において検索された発話継続文字列に対応するエントリの位置302の値を読み出す。テキスト送信判定部121は、テキストにおける発話継続文字列の位置が、エントリの位置302に設定された検知範囲に存在するか否かを判定する。
Specifically, the text
発話継続文字列が検知範囲に存在しないと判定された場合、テキスト送信判定部121は、メモリ201(ワークエリア及びバッファ)に格納されるテキストを用いて出力テキストを生成し、意図理解部122に出力テキストを送信する(ステップS108)。その後、テキスト送信判定部121は、処理を終了する。
When it is determined that the utterance continuation character string does not exist in the detection range, the text
発話継続文字列が検知範囲に存在すると判定された場合、テキスト送信判定部121は、ステップS104に進む。ステップS104からステップS108の処理は実施例1と同一の処理である。
When it is determined that the utterance continuation character string exists in the detection range, the text
実施例2の計算機システムの処理の流れは実施例1の計算機システムの処理の流れと同一である。 The processing flow of the computer system of the second embodiment is the same as the processing flow of the computer system of the first embodiment.
実施例2によれば、発話継続文字列及び発話継続文字列の出現位置に基づいて、テキストの出力タイミングを調整することによって、ユーザ103の発話意図をより正確に特定できる。また、言語の種別に応じて判定基準を調整できる。
According to the second embodiment, the utterance intention of the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。 The present invention is not limited to the above-described examples, and includes various modifications. Further, for example, the above-described embodiment describes the configuration in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. In addition, a part of the configuration of each embodiment can be added, deleted, or replaced with another configuration.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. The present invention can also be realized by a program code of software that realizes the functions of the examples. In this case, a storage medium in which the program code is recorded is provided to the computer, and the processor included in the computer reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the program code itself and the storage medium storing the program code itself constitute the present invention. Examples of the storage medium for supplying such a program code include a flexible disk, a CD-ROM, a DVD-ROM, a hard disk, an SSD (Solid State Drive), an optical disk, a magneto-optical disk, a CD-R, and a magnetic tape. Non-volatile memory cards, ROMs, etc. are used.
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 In addition, the program code that realizes the functions described in this embodiment can be implemented in a wide range of programs or script languages such as assembler, C / C ++, perl, Shell, PHP, and Java (registered trademark).
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Further, by distributing the program code of the software that realizes the functions of the examples via the network, it is stored in a storage means such as a hard disk or memory of a computer or a storage medium such as a CD-RW or a CD-R. , The processor provided in the computer may read and execute the program code stored in the storage means or the storage medium.
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiment, the control lines and information lines show what is considered necessary for explanation, and do not necessarily indicate all the control lines and information lines in the product. All configurations may be interconnected.
100 計算機
101 通信装置
102 対話装置
103 ユーザ
105 ネットワーク
110 音声処理部
111 言語処理部
120 テキスト受信部
121 テキスト送信判定部
122 意図理解部
123 回答生成部
130 発話継続文字列情報
131 意図理解情報
132 回答生成情報
200 プロセッサ
201 メモリ
202 ネットワークインタフェース
100
Claims (15)
演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される通信インタフェースを備え、
前記演算装置は、
前記通信インタフェースを介して前記音声信号を受信し、
前記受信した音声信号を複数の文字列から構成されるテキストに変換し、
前記変換されたテキストを解析することによって、前記ユーザの発話が継続中であることを示す発話継続文字列が前記変換されたテキストに含まれるか否かを判定し、
前記発話継続文字列が前記変換されたテキストに含まれると判定された場合、前記記憶装置に前記変換されたテキストを蓄積し、
前記発話継続文字列が前記変換されたテキストに含まれないと判定された場合、一つ以上の前記変換されたテキストを用いて出力テキストを生成し、
前記出力テキストに基づいて、前記受信した音声信号に対応する音声を発した前記ユーザの発話意図を特定し、
前記ユーザの発話に対する応答を行う装置に、前記特定されたユーザの発話意図を示す情報を送信することを特徴とする計算機。 A computer that processes audio signals corresponding to user-generated audio.
It includes an arithmetic unit, a storage device connected to the arithmetic unit, and a communication interface connected to the arithmetic unit.
The arithmetic unit
The audio signal is received via the communication interface and
The received audio signal is converted into a text composed of a plurality of character strings, and the received audio signal is converted into a text composed of a plurality of character strings.
By analyzing the converted text, it is determined whether or not the utterance continuation character string indicating that the user's utterance is continuing is included in the converted text.
When it is determined that the utterance continuation character string is included in the converted text, the converted text is stored in the storage device, and the converted text is stored.
If it is determined that the utterance continuation character string is not included in the converted text, the output text is generated using one or more of the converted texts.
Based on the output text, the utterance intention of the user who emitted the voice corresponding to the received voice signal is specified.
A computer characterized by transmitting information indicating the utterance intention of the specified user to a device that responds to the utterance of the user.
前記計算機は、前記発話継続文字列を管理するための発話継続文字列情報を保持し、
前記演算装置は、
前記発話継続文字列情報を参照して、前記変換されたテキストの末尾に前記発話継続文字列が存在するか否かを判定し、
前記変換されたテキストの末尾に前記発話継続文字列が存在すると判定された場合、前記記憶装置に前記変換されたテキストを蓄積することを特徴とする計算機。 The computer according to claim 1.
The computer holds the utterance continuation character string information for managing the utterance continuation character string, and holds the utterance continuation character string information.
The arithmetic unit
With reference to the utterance continuation character string information, it is determined whether or not the utterance continuation character string exists at the end of the converted text.
A computer characterized in that when it is determined that the utterance continuation character string exists at the end of the converted text, the converted text is stored in the storage device.
前記計算機は、前記発話継続文字列を管理するための発話継続文字列情報を保持し、
前記発話継続文字列情報は、前記発話継続文字列及びテキストにおける前記発話継続文字列の出現位置から構成されるエントリを複数含み、
前記演算装置は、
前記発話継続文字列情報を参照して、前記変換されたテキストに前記発話継続文字列が含まれるか否かを判定し、
前記変換されたテキストに前記発話継続文字列が含まれると判定された場合、前記変換されたテキストに含まれる前記発話継続文字列の前記変換されたテキスト中の位置が、当該発話継続文字列に対応するエントリに設定される出現位置に一致するか否かを判定し、
前記変換されたテキストに含まれる前記発話継続文字列の前記変換されたテキスト中の位置が、当該発話継続文字列に対応するエントリに設定される出現位置に一致すると判定された場合、前記記憶装置に前記変換されたテキストを蓄積することを特徴とする計算機。 The computer according to claim 1.
The computer holds the utterance continuation character string information for managing the utterance continuation character string, and holds the utterance continuation character string information.
The utterance continuation character string information includes a plurality of entries composed of the utterance continuation character string and the appearance position of the utterance continuation character string in the text.
The arithmetic unit
With reference to the utterance continuation character string information, it is determined whether or not the converted text includes the utterance continuation character string.
When it is determined that the converted text includes the utterance continuation character string, the position of the utterance continuation character string included in the converted text in the converted text becomes the utterance continuation character string. Determines whether or not it matches the appearance position set in the corresponding entry,
When it is determined that the position of the utterance continuation character string included in the converted text in the converted text matches the appearance position set in the entry corresponding to the utterance continuation character string, the storage device. A computer characterized by accumulating the converted text in.
前記演算装置は、
前記記憶装置に前記変換されたテキストを蓄積した後、待ち時間を計測するタイマが起動中か否かを判定し、
前記タイマが起動中でないと判定された場合、前記タイマを起動し、
前記タイマが起動中であると判定された場合、前記待ち時間が閾値より大きいか否かを判定し、
前記待ち時間が閾値以下であると判定された場合、前記待ち時間を初期化して、前記待ち時間の計測を継続し、
前記待ち時間が閾値より大きいと判定された場合、前記出力テキストを生成することを特徴とする計算機。 The computer according to claim 1.
The arithmetic unit
After accumulating the converted text in the storage device, it is determined whether or not the timer for measuring the waiting time is running.
If it is determined that the timer is not running, the timer is started and the timer is started.
When it is determined that the timer is running, it is determined whether or not the waiting time is larger than the threshold value.
When it is determined that the waiting time is equal to or less than the threshold value, the waiting time is initialized and the measurement of the waiting time is continued.
A computer characterized in that when it is determined that the waiting time is larger than a threshold value, the output text is generated.
前記演算装置は、
前記記憶装置に複数の前記変換されたテキストが格納される場合、前記複数の変換されたテキストから前記発話継続文字列を削除し、結合することによって前記出力テキストを生成し、
前記記憶装置に一つの前記変換されたテキストが格納される場合、前記一つの変換されたテキストを前記出力テキストとして生成することを特徴とする計算機。 The computer according to claim 1.
The arithmetic unit
When a plurality of the converted texts are stored in the storage device, the output texts are generated by deleting and combining the utterance continuation character strings from the plurality of converted texts.
A computer characterized in that when one of the converted texts is stored in the storage device, the one converted text is generated as the output text.
前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される通信インタフェースを備え、
前記言語解析方法は、
前記演算装置が、前記通信インタフェースを介して前記音声信号を受信し、前記受信した音声信号を複数の文字列から構成されるテキストに変換する第1のステップと、
前記演算装置が、前記変換されたテキストを解析することによって、前記ユーザの発話が継続中であることを示す発話継続文字列が前記変換されたテキストに含まれるか否かを判定する第2のステップと、
前記演算装置が、前記発話継続文字列が前記変換されたテキストに含まれると判定した場合、前記記憶装置に前記変換されたテキストを蓄積する第3のステップと、
前記演算装置が、前記発話継続文字列が前記変換されたテキストに含まれないと判定した場合、一つ以上の前記変換されたテキストを用いて出力テキストを生成する第4のステップと、
前記演算装置が、前記出力テキストに基づいて、前記受信した音声信号に対応する音声を発した前記ユーザの発話意図を特定する第5のステップと、
前記演算装置が、前記ユーザの発話に対する応答を行う装置に、前記特定されたユーザの発話意図を示す情報を送信する第6のステップと、を含むことを特徴とする言語解析方法。 A language analysis method executed by a computer that processes a voice signal corresponding to a voice emitted by a user.
The computer includes an arithmetic unit, a storage device connected to the arithmetic unit, and a communication interface connected to the arithmetic unit.
The language analysis method is
A first step in which the arithmetic unit receives the audio signal via the communication interface and converts the received audio signal into a text composed of a plurality of character strings.
The second arithmetic unit analyzes the converted text to determine whether or not the utterance continuation character string indicating that the user's utterance is continuing is included in the converted text. Steps and
When the arithmetic unit determines that the utterance continuation character string is included in the converted text, a third step of accumulating the converted text in the storage device, and
When the arithmetic unit determines that the utterance continuation character string is not included in the converted text, a fourth step of generating an output text using one or more of the converted texts,
A fifth step in which the arithmetic unit identifies the utterance intention of the user who has emitted a voice corresponding to the received voice signal based on the output text.
A language analysis method, wherein the arithmetic unit includes a sixth step of transmitting information indicating the utterance intention of the specified user to a device that responds to the utterance of the user.
前記計算機は、前記発話継続文字列を管理するための発話継続文字列情報を保持し、
前記第2のステップは、前記演算装置が、前記発話継続文字列情報を参照して、前記変換されたテキストの末尾に前記発話継続文字列が存在するか否かを判定するステップを含み、
前記第3のステップでは、前記演算装置が、前記変換されたテキストの末尾に前記発話継続文字列が存在すると判定した場合、前記記憶装置に前記変換されたテキストを蓄積することを特徴とする言語解析方法。 The language analysis method according to claim 6.
The computer holds the utterance continuation character string information for managing the utterance continuation character string, and holds the utterance continuation character string information.
The second step includes a step in which the arithmetic unit refers to the utterance continuation character string information and determines whether or not the utterance continuation character string exists at the end of the converted text.
In the third step, when the arithmetic unit determines that the utterance continuation character string exists at the end of the converted text, the language is characterized by accumulating the converted text in the storage device. analysis method.
前記計算機は、前記発話継続文字列を管理するための発話継続文字列情報を保持し、
前記発話継続文字列情報は、前記発話継続文字列及びテキストにおける前記発話継続文字列の出現位置から構成されるエントリを複数含み、
前記第2のステップは、
前記演算装置が、前記発話継続文字列情報を参照して、前記変換されたテキストに前記発話継続文字列が含まれるか否かを判定するステップと、
前記演算装置が、前記変換されたテキストに前記発話継続文字列が含まれると判定した場合、前記変換されたテキストに含まれる前記発話継続文字列の前記変換されたテキスト中の位置が、当該発話継続文字列に対応するエントリに設定される出現位置に一致するか否かを判定するステップと、を含み、
前記第3のステップでは、前記演算装置が、前記変換されたテキストに含まれる前記発話継続文字列の前記変換されたテキスト中の位置が、当該発話継続文字列に対応するエントリに設定される出現位置に一致すると判定した場合、前記記憶装置に前記変換されたテキストを蓄積することを特徴とする言語解析方法。 The language analysis method according to claim 6.
The computer holds the utterance continuation character string information for managing the utterance continuation character string, and holds the utterance continuation character string information.
The utterance continuation character string information includes a plurality of entries composed of the utterance continuation character string and the appearance position of the utterance continuation character string in the text.
The second step is
A step in which the arithmetic unit refers to the utterance continuation character string information and determines whether or not the utterance continuation character string is included in the converted text.
When the arithmetic unit determines that the converted text includes the utterance continuation character string, the position of the utterance continuation character string included in the converted text in the converted text is the utterance. Including a step of determining whether or not it matches the appearance position set in the entry corresponding to the continuation character string.
In the third step, the arithmetic unit sets the position of the utterance continuation character string included in the converted text in the converted text to the entry corresponding to the utterance continuation character string. A language analysis method characterized by accumulating the converted text in the storage device when it is determined that the positions match.
前記第3のステップは、
前記演算装置が、前記記憶装置に前記変換されたテキストを蓄積した後に、待ち時間を計測するタイマが起動中か否かを判定するステップと、
前記タイマが起動中でないと判定された場合、前記演算装置が、前記タイマを起動するステップと、
前記タイマが起動中であると判定された場合、前記演算装置が、前記待ち時間が閾値より大きいか否かを判定するステップと、
前記待ち時間が閾値以下であると判定された場合、前記演算装置が、前記待ち時間を初期化して、前記待ち時間の計測を継続するステップと、
前記待ち時間が閾値より大きいと判定された場合、前記演算装置が、前記出力テキストを生成するステップと、を含むことを特徴とする言語解析方法。 The language analysis method according to claim 6.
The third step is
A step of determining whether or not the timer for measuring the waiting time is running after the arithmetic unit stores the converted text in the storage device.
When it is determined that the timer is not running, the arithmetic unit starts the timer, and
When it is determined that the timer is running, the arithmetic unit determines whether or not the waiting time is greater than the threshold value.
When it is determined that the waiting time is equal to or less than the threshold value, the arithmetic unit initializes the waiting time and continues the measurement of the waiting time.
A language analysis method comprising the step of generating the output text by the arithmetic unit when it is determined that the waiting time is larger than the threshold value.
前記第4のステップは、
前記記憶装置に複数の前記変換されたテキストが格納される場合、前記演算装置が、前記複数の変換されたテキストから前記発話継続文字列を削除し、結合することによって前記出力テキストを生成するステップと、
前記記憶装置に一つの前記変換されたテキストが格納される場合、前記演算装置が、前記一つの変換されたテキストを前記出力テキストとして生成するステップと、を含むことを特徴とする言語解析方法。 The language analysis method according to claim 6.
The fourth step is
When a plurality of the converted texts are stored in the storage device, the arithmetic unit generates the output text by deleting the utterance continuation character string from the plurality of converted texts and combining them. When,
A language analysis method comprising: when the storage device stores one of the converted texts, the arithmetic unit includes a step of generating the one converted text as the output text.
前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される通信インタフェースを備え、
前記プログラムは、
前記通信インタフェースを介して前記音声信号を受信し、前記受信した音声信号を複数の文字列から構成されるテキストに変換する第1の手順と、
前記変換されたテキストを解析することによって、前記ユーザの発話が継続中であることを示す発話継続文字列が前記変換されたテキストに含まれるか否かを判定する第2の手順と、
前記発話継続文字列が前記変換されたテキストに含まれると判定された場合、前記記憶装置に前記変換されたテキストを蓄積する第3の手順と、
前記発話継続文字列が前記変換されたテキストに含まれないと判定された場合、一つ以上の前記変換されたテキストを用いて出力テキストを生成する第4の手順と、
前記出力テキストに基づいて、前記受信した音声信号に対応する音声を発した前記ユーザの発話意図を特定する第5の手順と、
前記ユーザの発話に対する応答を行う装置に、前記特定されたユーザの発話意図を示す情報を送信する第6の手順と、を前記計算機に実行させるためのプログラム。 A program for a computer that processes a voice signal corresponding to a voice emitted by a user to be executed.
The computer includes an arithmetic unit, a storage device connected to the arithmetic unit, and a communication interface connected to the arithmetic unit.
The program
The first procedure of receiving the voice signal via the communication interface and converting the received voice signal into a text composed of a plurality of character strings, and
A second procedure for determining whether or not the converted text includes a speech continuation character string indicating that the user's utterance is ongoing by analyzing the converted text.
When it is determined that the utterance continuation character string is included in the converted text, a third step of accumulating the converted text in the storage device, and
When it is determined that the utterance continuation character string is not included in the converted text, a fourth step of generating an output text using one or more of the converted texts, and
A fifth step of identifying the utterance intention of the user who has emitted a voice corresponding to the received voice signal based on the output text, and
A program for causing the computer to execute a sixth step of transmitting information indicating the specified user's utterance intention to a device that responds to the user's utterance.
前記計算機は、前記発話継続文字列を管理するための発話継続文字列情報を保持し、
前記第2の手順は、前記発話継続文字列情報を参照して、前記変換されたテキストの末尾に前記発話継続文字列が存在するか否かを判定する手順を含み、
前記第3の手順では、前記変換されたテキストの末尾に前記発話継続文字列が存在すると判定された場合、前記記憶装置に前記変換されたテキストを蓄積させることを特徴とするプログラム。 The program according to claim 11.
The computer holds the utterance continuation character string information for managing the utterance continuation character string, and holds the utterance continuation character string information.
The second procedure includes a procedure for determining whether or not the utterance continuation character string exists at the end of the converted text by referring to the utterance continuation character string information.
The third procedure is a program characterized in that when it is determined that the utterance continuation character string exists at the end of the converted text, the converted text is stored in the storage device.
前記計算機は、前記発話継続文字列を管理するための発話継続文字列情報を保持し、
前記発話継続文字列情報は、前記発話継続文字列及びテキストにおける前記発話継続文字列の出現位置から構成されるエントリを複数含み、
前記第2の手順は、
前記発話継続文字列情報を参照して、前記変換されたテキストに前記発話継続文字列が含まれるか否かを判定する手順と、
前記変換されたテキストに前記発話継続文字列が含まれると判定された場合、前記テキストに含まれる前記発話継続文字列の前記変換されたテキスト中の位置が、当該発話継続文字列に対応するエントリに設定される出現位置に一致するか否かを判定する手順と、を含み、
前記第3の手順では、前記変換されたテキストに含まれる前記発話継続文字列の前記変換されたテキスト中の位置が、当該発話継続文字列に対応するエントリに設定される出現位置に一致すると判定された場合、前記記憶装置に前記変換されたテキストを蓄積することを特徴とするプログラム。 The program according to claim 11.
The computer holds the utterance continuation character string information for managing the utterance continuation character string, and holds the utterance continuation character string information.
The utterance continuation character string information includes a plurality of entries composed of the utterance continuation character string and the appearance position of the utterance continuation character string in the text.
The second procedure is
With reference to the utterance continuation character string information, a procedure for determining whether or not the utterance continuation character string is included in the converted text, and
When it is determined that the converted text includes the utterance continuation character string, the position of the utterance continuation character string included in the text in the converted text is an entry corresponding to the utterance continuation character string. Including the procedure for determining whether or not it matches the appearance position set in
In the third step, it is determined that the position of the utterance continuation character string included in the converted text in the converted text matches the appearance position set in the entry corresponding to the utterance continuation character string. If so, a program comprising storing the converted text in the storage device.
前記第3の手順は、
前記記憶装置に前記変換されたテキストを蓄積した後に、待ち時間を計測するタイマが起動中か否かを判定する手順と、
前記タイマが起動中でないと判定された場合、前記タイマを起動する手順と、
前記タイマが起動中であると判定された場合、前記待ち時間が閾値より大きいか否かを判定する手順と、
前記待ち時間が閾値以下であると判定された場合、前記待ち時間を初期化して、前記待ち時間の計測を継続する手順と、
前記待ち時間が閾値より大きいと判定された場合、前記出力テキストを生成する手順と、を含むことを特徴とするプログラム。 The program according to claim 11.
The third procedure is
After accumulating the converted text in the storage device, a procedure for determining whether or not the timer for measuring the waiting time is running, and
If it is determined that the timer is not running, the procedure for starting the timer and the procedure for starting the timer
When it is determined that the timer is running, the procedure for determining whether or not the waiting time is larger than the threshold value and
When it is determined that the waiting time is equal to or less than the threshold value, the procedure of initializing the waiting time and continuing the measurement of the waiting time, and
A program comprising a procedure for generating the output text when it is determined that the waiting time is greater than a threshold value.
前記第4の手順は、
前記記憶装置に複数の前記変換されたテキストが格納される場合、前記複数の変換されたテキストから前記発話継続文字列を削除し、結合することによって前記出力テキストを生成する手順と、
前記記憶装置に一つの前記変換されたテキストが格納される場合、前記一つの変換されたテキストを前記出力テキストとして生成する手順と、を含むことを特徴とするプログラム。 The program according to claim 11.
The fourth procedure is
When a plurality of the converted texts are stored in the storage device, a procedure for generating the output texts by deleting and combining the utterance continuation character strings from the plurality of converted texts.
A program comprising, when one of the converted texts is stored in the storage device, a procedure of generating the one converted text as the output text.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017243880A JP6867939B2 (en) | 2017-12-20 | 2017-12-20 | Computers, language analysis methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017243880A JP6867939B2 (en) | 2017-12-20 | 2017-12-20 | Computers, language analysis methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019109424A JP2019109424A (en) | 2019-07-04 |
JP6867939B2 true JP6867939B2 (en) | 2021-05-12 |
Family
ID=67179683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017243880A Active JP6867939B2 (en) | 2017-12-20 | 2017-12-20 | Computers, language analysis methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6867939B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021117372A (en) * | 2020-01-27 | 2021-08-10 | ソニーグループ株式会社 | Information processing apparatus, information process system, information processing method, and information processing program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3896760B2 (en) * | 2000-03-28 | 2007-03-22 | 富士ゼロックス株式会社 | Dialog record editing apparatus, method, and storage medium |
JP2002032370A (en) * | 2000-07-18 | 2002-01-31 | Fujitsu Ltd | Information processor |
JP6424419B2 (en) * | 2013-09-30 | 2018-11-21 | ヤマハ株式会社 | Voice control device, voice control method and program |
JP2016057986A (en) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | Voice translation device, method, and program |
JP6540414B2 (en) * | 2015-09-17 | 2019-07-10 | 本田技研工業株式会社 | Speech processing apparatus and speech processing method |
WO2017191713A1 (en) * | 2016-05-02 | 2017-11-09 | ソニー株式会社 | Control device, control method, and computer program |
-
2017
- 2017-12-20 JP JP2017243880A patent/JP6867939B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019109424A (en) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047481B (en) | Method and apparatus for speech recognition | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
US8682640B2 (en) | Self-configuring language translation device | |
CN107622770A (en) | voice awakening method and device | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
US11120802B2 (en) | Diarization driven by the ASR based segmentation | |
JP7230806B2 (en) | Information processing device and information processing method | |
CN110136715A (en) | Audio recognition method and device | |
CN108595412B (en) | Error correction processing method and device, computer equipment and readable medium | |
JP2018045001A (en) | Voice recognition system, information processing apparatus, program, and voice recognition method | |
JP6930538B2 (en) | Information processing equipment, information processing methods, and programs | |
KR20190115405A (en) | Search method and electronic device using the method | |
US11948564B2 (en) | Information processing device and information processing method | |
KR102536944B1 (en) | Method and apparatus for speech signal processing | |
US10468031B2 (en) | Diarization driven by meta-information identified in discussion content | |
JP6867939B2 (en) | Computers, language analysis methods, and programs | |
JP6260138B2 (en) | COMMUNICATION PROCESSING DEVICE, COMMUNICATION PROCESSING METHOD, AND COMMUNICATION PROCESSING PROGRAM | |
CN113157240A (en) | Voice processing method, device, equipment, storage medium and computer program product | |
WO2021171417A1 (en) | Utterance end detection device, control method, and program | |
JP2016024378A (en) | Information processor, control method and program thereof | |
KR102342521B1 (en) | Method and device for improving speech recognition performance | |
US20210104225A1 (en) | Phoneme sound based controller | |
CN113241061B (en) | Method and device for processing voice recognition result, electronic equipment and storage medium | |
US11798542B1 (en) | Systems and methods for integrating voice controls into applications | |
CN111667815B (en) | Method, apparatus, chip circuit and medium for text-to-speech conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6867939 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |