JP6991409B2 - Information processing equipment, programs and information processing methods - Google Patents
Information processing equipment, programs and information processing methods Download PDFInfo
- Publication number
- JP6991409B2 JP6991409B2 JP2021550833A JP2021550833A JP6991409B2 JP 6991409 B2 JP6991409 B2 JP 6991409B2 JP 2021550833 A JP2021550833 A JP 2021550833A JP 2021550833 A JP2021550833 A JP 2021550833A JP 6991409 B2 JP6991409 B2 JP 6991409B2
- Authority
- JP
- Japan
- Prior art keywords
- explanatory
- voice
- unit
- character
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 17
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000014509 gene expression Effects 0.000 claims description 117
- 238000000605 extraction Methods 0.000 claims description 82
- 230000004044 response Effects 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
本発明は、情報処理装置、プログラム及び情報処理方法に関する。 The present invention relates to an information processing apparatus, a program and an information processing method.
コールセンターシステムは、お客様であるユーザとオペレータとのやり取りを通して、様々な情報を取得する必要がある。ユーザの氏名、住所又は電話番号等は、その一例である。従来、オペレータが、復唱を交えながらこのような情報を確認して、確認された情報をコールセンターシステムに手入力しており、非常にコストがかかっていた。 The call center system needs to acquire various information through the interaction between the user who is the customer and the operator. The user's name, address, telephone number, etc. are examples. In the past, the operator confirmed such information while repeating it, and manually input the confirmed information into the call center system, which was very costly.
これに対し、例えば特許文献1には、音声認識を用いて、本人又はその他の確認項目の自動チェックを行うことで、オペレータの確認作業を支援するオペレータ本人確認支援システムが記載されている。 On the other hand, for example, Patent Document 1 describes an operator identity verification support system that supports an operator's verification work by automatically checking the identity or other confirmation items using voice recognition.
しかしながら、従来のオペレータ本人確認支援システムは、ユーザ及びオペレータの発話を音声認識し、認識された音声を示すテキストからキーワードを抽出しているが、音声だけでは氏名や住所等の漢字又は綴りといった文字又は文字列を特定することが難しいため、実際の通話から、音声だけで必要な情報を抽出することは難しかった。 However, the conventional operator identity verification support system recognizes the utterances of the user and the operator by voice and extracts the keyword from the text indicating the recognized voice, but the voice alone is used for characters such as kanji or spelling such as name and address. Or, since it is difficult to specify the character string, it is difficult to extract the necessary information only by voice from the actual call.
そこで、本発明は、文字又は文字列の説明を含む音声から、自動的に所望の情報を特定できるようにすることを目的とする。 Therefore, an object of the present invention is to make it possible to automatically identify desired information from a voice including a description of a character or a character string.
本発明の一態様に係る情報処理装置は、発話された音声を含む音声データから、前記発話された音声を認識する音声認識部と、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部と、前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を記憶する説明表現情報記憶部と、前記説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部と、を備えることを特徴とする。 The information processing apparatus according to one aspect of the present invention has a voice recognition unit that recognizes the spoken voice from voice data including the spoken voice, and a character or a character string and the character from the recognized voice. Alternatively, the explanatory part extraction unit for extracting the explanatory portion which is a portion including the explanatory expression explaining how to write the character string, the explanatory expression, and the character or the character string described in the explanatory expression. By referring to the explanatory expression information storage unit that stores the explanatory expression information associated with and, and the explanatory expression information , the unique information that determines the character or the character string described in the explanatory expression as unique information. It is characterized by having a fixed portion.
本発明の一態様に係るプログラムは、コンピュータを、発話された音声を含む音声データから、前記発話された音声を認識する音声認識部、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部、前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を記憶する説明表現情報記憶部、及び、前記説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部、として機能させることを特徴とする。 In the program according to one aspect of the present invention, the computer is subjected to a voice recognition unit that recognizes the spoken voice from voice data including the spoken voice, a character or a character string from the recognized voice, and the character. Alternatively, an explanatory part extraction unit for extracting an explanatory part which is a part including an explanatory expression explaining how to write the character string, the explanatory expression, and the character or the character string described in the explanatory expression. By referring to the explanatory expression information storage unit that stores the explanatory expression information associated with, and the explanatory expression information, the character or the character string described in the explanatory expression is determined as unique information. It is characterized by functioning as a fixed part.
本発明の一態様に係る情報処理方法は、音声認識部が、発話された音声を含む音声データから、前記発話された音声を認識し、説明部分抽出部が、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出し、固有情報確定部が、前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定することを特徴とする。 In the information processing method according to one aspect of the present invention, the voice recognition unit recognizes the spoken voice from the voice data including the spoken voice, and the explanatory partial extraction unit recognizes a character from the recognized voice. Alternatively, an explanatory part that is a part including the character string and the explanatory expression explaining the character or how to write the character string is extracted, and the unique information determination unit is explained by the explanatory expression and the explanatory expression. By referring to the explanatory expression information associated with the character or the character string, the character or the character string described in the explanatory expression is determined as unique information.
本発明の一又は複数の態様によれば、文字又は文字列の説明を含む音声から、自動的に所望の情報を特定することができる。 According to one or more aspects of the present invention, desired information can be automatically specified from a voice including a description of a character or a character string.
実施の形態1.
図1は、実施の形態1に係る情報処理装置である通話データ情報抽出装置100の構成を概略的に示すブロック図である。
通話データ情報抽出装置100は、音声入力部101と、音声取得部102と、音声認識部103と、説明部分抽出部104と、説明データベース(以下、説明DBという)105と、固有情報確定部106とを備える。通話データ情報抽出装置100は、以上の構成で、発話の音声認識を行い、説明DB105に基づいて、固有情報を確定する。Embodiment 1.
FIG. 1 is a block diagram schematically showing a configuration of a call data
The call data
音声入力部101は、抽出対象であるお客様の入力音声を示す音声信号の入力を受け付ける。入力された音声信号は、音声取得部102に与えられる。以下、お客様をユーザという。
The
音声取得部102は、音声入力部101から与えられる音声信号を、例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換することで、音声データを取得する。取得された音声データは、音声認識部103に与えられる。
The
音声アナログ信号で示される入力音声は、予め一人分の話者の音声にしておく必要がある。例えば、コールセンターでの通話の場合には、ステレオで、ユーザと、オペレータとの音声を分離しておく必要がある。あるいは、モノラルで、複数話者の音声が混合している場合、事前に音声分離技術等で、話者毎の音声に分離しておく必要がある。 Voice The input voice indicated by the analog signal needs to be the voice of one speaker in advance. For example, in the case of a call in a call center, it is necessary to separate the voices of the user and the operator in stereo. Alternatively, when the voices of a plurality of speakers are mixed in monaural, it is necessary to separate the voices of each speaker in advance by voice separation technology or the like.
ここでは、音声入力部101は、ユーザの入力音声を示す音声信号の入力を受けるものとするが、実施の形態1はこのような例に限定されない。例えば、音声取得部102において、公知の技術を用いて、入力された音声信号から、話者毎の入力音声を特定して、ユーザの入力音声を示す音声データが生成されてもよい。
Here, the
音声認識部103は、音声取得部102によりデジタル化された音声データから、発話された音声に該当する音声区間を検出して、その音声区間の音声の認識処理を行うことにより、発話された音声を認識して、その発話された音声に対応する発話内容を示すテキストのデータである音声テキストデータを生成する。生成された音声テキストデータは、説明部分抽出部104に与えられる。
The
説明部分抽出部104は、音声認識部103から与えられた音声テキストデータで示される、ユーザの発話内容から、文字又は文字列と、その文字又は文字列の書き方を説明している説明表現とを含む部分である説明部分を抽出する。そして、説明部分抽出部104、抽出された説明部分を示す説明部分テキストデータを生成する。生成された説明部分テキストデータは、固有情報確定部106に与えられる。
The explanation
ここでいう説明部分は、氏名又は住所等、音だけでは漢字又は綴りといった文字又は文字列を確定することが難しい場合に、漢字又は綴りといった文字又は文字列を確定するための補足情報を述べている部分のことを表す。 The explanation part here describes supplementary information for determining characters or character strings such as Chinese characters or spelling when it is difficult to determine characters or character strings such as Chinese characters or spelling only by sound, such as name or address. Represents the part that is.
例えば、説明部分抽出部104は、音声テキストデータで示される発話内容が、例えば、図2又は図3に示されている説明抽出ルール情報で示されている説明抽出ルールに該当する場合に、そのルールで示されている一部を説明部分として抽出してもよい。
ここで、説明抽出ルールは、認識された音声において、文字又は文字列の書き方を説明するために使用される表現のルールである。For example, the explanatory
Here, the explanation extraction rule is an expression rule used to explain how to write a character or a character string in the recognized voice.
例えば、図2に示されている説明抽出ルール情報の一行目には、<ENTITY>は<DESCRIPTION>の<ENTITY>という説明抽出ルールが格納されている。
発話内容が「フクシマは都道府県のフクシマ」である場合、「フクシマ」が<ENTITY>となり、「都道府県」が<DESCRIPTION>となる。ここで、最初の「<ENTITY>」に一致する部分が、説明される文字又は文字列となり、「<DESCRIPTION>の<ENTITY>」に一致する部分が、説明表現となる。For example, in the first line of the explanation extraction rule information shown in FIG. 2, the explanation extraction rule that <ENTITY> is <DESCPRIPTION><ENTITY> is stored.
When the utterance content is "Fukushima is a prefecture's Fukushima", "Fukushima" becomes <ENTITY> and "prefecture" becomes <DESCPRIPTION>. Here, the part corresponding to the first "<ENTITY>" is the character or character string to be explained, and the part corresponding to "<ENTITY> of <DESCRIPTION>" is the explanatory expression.
なお、説明部分抽出部104は、図2又は図3に示されている説明抽出ルール情報を用いて説明部分を抽出しているが、実施の形態1はこのような例に限定されない。例えば、説明部分抽出部104は、機械学習を行って、説明部分を抽出してもよい。例えば、説明部分抽出部104は、SVM(Support Vector Machine)のような分類器を用いて、文又は文節単位で説明部分が含まれるかどうか分類してもよい。
The explanatory
また、例えば、音声取得部102に、オペレータの入力音声を示す音声信号も入力して、音声データを生成し、その音声データから認識された音声テキストデータについても説明部分抽出部104に与えることで、説明部分抽出部104は、オペレータが「どのような漢字ですか?」といった予め定められた発話内容の発話をした後に、ユーザが発話する内容を説明部分として抽出してもよい。
Further, for example, a voice signal indicating the input voice of the operator is also input to the
説明DB105は、音だけでは漢字又は綴りといった文字又は文字列を確定することが難しい場合に、それらを確定するための補足情報として述べられる説明表現を示す説明表現情報を記憶する説明表現情報記憶部である。説明表現情報は、説明表現と、その説明表現により書き方が説明される文字又は文字列とを対応付ける。
The
ここで、図4~図8は、説明DB105に記憶されている説明表現情報の例を示す概略図である。
図4は、固有情報が単数の漢字による名前である場合の説明表現情報の例である。図4に示されているように、説明表現に対して、一つ漢字が対応付けられている。Here, FIGS. 4 to 8 are schematic views showing an example of explanatory expression information stored in the
FIG. 4 is an example of explanatory expression information when the unique information is a name in a single Chinese character. As shown in FIG. 4, one Chinese character is associated with the explanatory expression.
図5は、固有情報が複数の漢字による名前である場合の説明表現情報の例である。図5に示されているように、説明表現に対して、複数の漢字が対応付けられている。 FIG. 5 is an example of explanatory expression information when the unique information is a name in a plurality of Chinese characters. As shown in FIG. 5, a plurality of Chinese characters are associated with the explanatory expression.
図6は、固有情報が中国語の名前である場合の説明表現情報の例である。図6に示されているように、中国語の説明表現に対して、一つの漢字からなる中国語の名前が対応付けられている。
図7は、固有情報が英語の名前である場合の説明表現情報の例である。図7に示されているように、英語の説明表現に対して、英語の名前が対応付けられている。FIG. 6 is an example of explanatory expression information when the unique information is a Chinese name. As shown in FIG. 6, a Chinese name consisting of one Chinese character is associated with the Chinese explanatory expression.
FIG. 7 is an example of explanatory expression information when the unique information is an English name. As shown in FIG. 7, an English name is associated with an English explanatory expression.
図8は、固有情報が住所の例である。図8に示されているように、説明表現に対して、地名が対応付けられている。 In FIG. 8, the unique information is an example of an address. As shown in FIG. 8, a place name is associated with the explanatory expression.
固有情報確定部106は、説明表現で説明されている文字又は文字列を、固有情報として確定する。例えば、固有情報確定部106は、説明DB105に記憶されている説明表現情報を参照することで、説明表現で説明されている文字又は文字列を確定する。
The unique
具体的には、固有情報確定部106は、説明部分抽出部104から与えられる説明部分テキストデータで示される説明部分に、説明DB105に記憶されている説明表現情報で示される説明表現が含まれているか否かを判断する。そして、固有情報確定部106は、説明部分に説明表現が含まれている場合には、その説明表現に対応付けられている文字又は文字列を特定する。そして、固有情報確定部106は、特定された文字又は文字列を固有情報として確定する。固有情報確定部106は、確定された固有情報を示す固有情報データを別の装置(図示せず)又は後段の処理部(図示せず)に出力してもよい。
Specifically, the unique
ここでは、固有情報確定部106は、説明部分に説明表現が含まれているか否かの判断を、文字列の完全一致又は部分一致により行ってもよく、また、例えば、説明部分に含まれている表現と説明表現との類似度を公知の技術で計算し、その類似度が閾値以上であるか否かにより行ってもよい。この場合には、類似度が閾値以上である場合に、説明部分に説明表現が含まれていると判断される。
Here, the unique
図9は、実施の形態1に係る通話データ情報抽出装置100のハードウェア構成図である。
図9に示されているように、通話データ情報抽出装置100は、メモリ11と、プロセッサ12と、音声インタフェース(以下、音声I/Fという)13と、テキスト入力インタフェース(以下、テキスト入力I/Fという)14と、ネットワークインタフェース(以下、ネットワークI/Fという)15とを備えるコンピュータ10で実現することができる。FIG. 9 is a hardware configuration diagram of the call data
As shown in FIG. 9, the call data
メモリ11は、音声取得部102、音声認識部103、説明部分抽出部104、固有情報確定部106のプログラム及びその中間データを記憶する。
また、メモリ11は、説明表現情報を記憶することで、説明DB105として機能する。The
Further, the
プロセッサ12は、メモリ11からプログラムを読み出し、そのプログラムを実行することで、音声取得部102、音声認識部103、説明部分抽出部104及び固有情報確定部106として機能する。プロセッサ12は、例えば、プログラム処理を行うCPU(Central Processing Unit)又はDSP(Digital Signal Processor)等の回路である。
The
音声I/F13は、音声信号の入力を受け付けるインタフェースである。また、音声I/F13は、応答音声を示す信号である応答音声信号を出力するインタフェースである。
The voice I /
テキスト入力I/F14は、オペレータがテキストデータの入力を行うインタフェースである。
The text input I /
ネットワークI/F15は、ネットワーク(図示せず)と通信を行うインタフェースである。 The network I / F15 is an interface for communicating with a network (not shown).
なお、図9において、必要なプログラム又はデータは、コンピュータ10の内部のメモリ11に記憶されているが、例えば、USB(Universal Serial Bus)メモリ等の外部メモリを接続して、必要なプログラム又はデータ等をコンピュータ10が読み込んでもよい。また、ネットワークI/F15を介して、ネットワークに接続された他の装置から、必要なプログラム又はデータをコンピュータ10が読み込んでもよい。
In FIG. 9, the necessary program or data is stored in the
次に動作について説明する。
図10は、実施の形態1に係る通話データ情報抽出装置100の動作を示すフローチャートである。
まず、音声入力部101は、ユーザが発話した音声を示す音声信号の入力を受ける(S10)。Next, the operation will be described.
FIG. 10 is a flowchart showing the operation of the call data
First, the
次に、音声取得部102は、音声信号から、ユーザが発話した音声を、音声データとして取得する(S11)。
Next, the
次に、音声認識部103は、音声データで示される音声を認識する音声認識処理を行い、認識された音声である発話内容を示す音声テキストデータを生成する(S12)。
音声認識処理は、パターン認識に限定されるものではなく、公知の如何なる音声認識処理を用いたものでも良い。公知の音声認識処理は、例えば、古井貞煕著、『音声情報処理』、森北出版、1998年、pp.79-132等に記載されている。Next, the
The voice recognition process is not limited to pattern recognition, and any known voice recognition process may be used. Known speech recognition processes include, for example, Sadaoki Furui, "Voice Information Processing", Morikita Publishing, 1998, pp. It is described in 79-132 and the like.
次に、説明部分抽出部104は、音声テキストデータで示される発話内容から、説明部分を抽出する処理を行い(S13)、ユーザの発話内容に説明部分があるか否かを判断する(S14)。説明部分がある場合(S14でYes)には、説明部分抽出部104は、抽出された説明部分を示す説明部分テキストデータを固有情報確定部106に与えて、処理はステップS15に進む。説明部分がない場合(S14でNo)には、処理はステップS13に戻る。
Next, the explanation
ステップS15では、固有情報確定部106は、説明DB105に記憶されている説明表現情報を参照することで、説明部分テキストデータで示される説明部分から固有情報を確定する。
In step S15, the unique
以上のように、実施の形態1に係る通話データ情報抽出装置100は、ユーザの音声から発話部分を抽出し、説明表現情報を参照して固有情報を確定する。これによって、冗長な入力音声から自動的に固有情報を確定することができる。
As described above, the call data
実施の形態2.
図11は、実施の形態2に係る情報処理装置である通話データ情報抽出装置200の構成を概略的に示すブロック図である。
通話データ情報抽出装置200は、音声入力部101と、音声取得部102と、音声認識部103と、説明部分抽出部204と、説明DB105と、固有情報確定部106と、入力受付部207と、伝票データ生成部208と、伝票データ記憶部209と、データベース更新部(以下、DB更新部という)210とを備える。Embodiment 2.
FIG. 11 is a block diagram schematically showing the configuration of the call data
The call data
実施の形態2に係る通話データ情報抽出装置200の音声入力部101、音声取得部102、音声認識部103、説明DB105及び固有情報確定部106は、実施の形態1に係る通話データ情報抽出装置100の音声入力部101、音声取得部102、音声認識部103、説明DB105及び固有情報確定部106と同様である。
The
説明部分抽出部204は、実施の形態1における説明部分抽出部104と同様に、音声認識部103から与えられた音声テキストデータで示される、ユーザの発話内容から、説明部分を抽出し、抽出された説明部分を示す説明部分テキストデータを生成する。
実施の形態2では、説明部分抽出部204は、生成された説明部分テキストデータを、固有情報確定部106に与えるとともに、伝票データ記憶部209に記憶する。Similar to the explanation
In the second embodiment, the explanatory
入力受付部207は、オペレータからのテキストの入力を受け付ける。例えば、入力受付部207は、説明部分抽出部104で抽出された説明部分に含まれている説明表現で書き方が説明された文字又は文字列の入力を受け付ける。
The
伝票データ生成部208は、入力受付部207を介して、オペレータから、伝票データ記憶部209に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現に対して正解となる漢字又は綴りといった文字又は文字列との入力を受ける。そして、伝票データ生成部208は、入力された文字又は文字列と、対応する説明表現とを示す伝票データを生成する。そして、伝票データ生成部208は、生成された伝票データを、伝票データ記憶部209に記憶させる。
伝票データ記憶部209は、上述の伝票データを記憶する。The slip
The slip
DB更新部210は、伝票データ記憶部209に、伝票データが記憶されると、記憶された伝票データに基づいて、説明DB105に記憶されている説明表現情報を更新する更新部である。例えば、DB更新部210は、伝票データで示されている説明表現、及び、文字又は文字列を説明表現情報に追加する。
The
以上に記載された入力受付部207は、図9に示されているテキスト入力I/F14により実現可能である。
また、伝票データ生成部208及びDB更新部210は、プロセッサ12が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ11に記憶されているものとする。
伝票データ記憶部209は、メモリ11により実現可能である。The
Further, the slip
The slip
次に動作について説明する。
なお、実施の形態2においても、入力される音声信号から固有情報を確定する動作については、実施の形態1と同様である。
図12は、実施の形態2に係る通話データ情報抽出装置200において、説明DB105に記憶されている説明表現情報を更新する動作を示すフローチャートである。
まず、音声入力部101は、ユーザが発話した音声を示す音声信号の入力を受ける(S20)。Next, the operation will be described.
Also in the second embodiment, the operation of determining the unique information from the input audio signal is the same as that of the first embodiment.
FIG. 12 is a flowchart showing an operation of updating the explanatory expression information stored in the
First, the
次に、音声取得部102は、音声信号から、ユーザが発話した音声を、音声データとして取得する(S21)。
Next, the
次に、音声認識部103は、音声データで示される音声を認識する音声認識処理を行い、認識された音声による発話内容を示す音声テキストデータを生成する(S22)。
Next, the
次に、説明部分抽出部104は、音声テキストデータで示される発話内容から、説明部分を抽出し、抽出された説明部分を示す説明部分テキストデータを生成して、生成された説明部分テキストデータを伝票データ記憶部209に記憶させる(S23)。
Next, the explanation
次に、伝票データ生成部208は、入力受付部207を介して、オペレータから、伝票データ記憶部209に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現で書き方が説明された文字又は文字列の入力を受けて、入力された文字又は文字列と、対応する説明表現とを示す伝票データを生成する(S24)。そして、伝票データ生成部208は、生成された伝票データを、伝票データ記憶部209に記憶させる。
Next, the slip
次に、DB更新部210は、伝票データ記憶部209に、伝票データが記憶されると、記憶された伝票データに基づいて、説明DB105に記憶されている説明表現情報を更新する(S25)。
Next, when the slip data is stored in the slip
以上のように、実施の形態2によれば、通話データ情報抽出装置200は、自動で説明DB105に記憶されている説明表現情報を更新することができる。
ここで、伝票データには、氏名欄、住所欄等のユーザ情報をオペレータが記入するようになっている。すなわち、氏名を説明する発話と氏名欄に記入された氏名とを紐づけて登録することで、次から同様の説明発話がなされたとき、この正解データが発話されたものとして推定することが可能になる。As described above, according to the second embodiment, the call data
Here, the operator fills in the user information such as the name field and the address field in the slip data. That is, by registering the utterance explaining the name and the name entered in the name column in association with each other, it is possible to presume that this correct answer data is spoken when the same explanation utterance is made from the next time. become.
説明DB105に記憶されている説明表現情報は、実際の通話を使って更新する以外に、例えば、漢字から説明表現情報を更新することもできる。即ち、漢字の部首、形を説明することも考えられるが、DB更新部210は、漢字の構造から自動的に説明表現を作成することもできる。
The explanatory expression information stored in the
実施の形態3.
図13は、実施の形態3に係る情報処理装置である通話データ情報抽出装置300の構成を概略的に示すブロック図である。
通話データ情報抽出装置300は、音声入力部101と、音声取得部102と、音声認識部303と、説明部分抽出部204と、説明DB105と、固有情報確定部306と、入力受付部207と、伝票データ生成部208と、伝票データ記憶部209と、DB更新部210と、音声認識結果修正部311とを備える。Embodiment 3.
FIG. 13 is a block diagram schematically showing the configuration of the call data
The call data
実施の形態3に係る通話データ情報抽出装置300の音声入力部101、音声取得部102及び説明DB105は、実施の形態1に係る通話データ情報抽出装置100の音声入力部101、音声取得部102及び説明DB105と同様である。
また、実施の形態3に係る通話データ情報抽出装置300の説明部分抽出部204、入力受付部207、伝票データ生成部208、伝票データ記憶部209及びDB更新部210は、実施の形態2に係る通話データ情報抽出装置200の説明部分抽出部204、入力受付部207、伝票データ生成部208、伝票データ記憶部209及びDB更新部210と同様である。The
Further, the explanatory
音声認識部303は、実施の形態1の音声認識部103と同様に音声テキストデータを生成する。
実施の形態3では、音声認識部303は、生成された音声テキストデータを、説明部分抽出部204及び音声認識結果修正部311に与える。The
In the third embodiment, the
固有情報確定部306は、実施の形態1の固有情報確定部106と同様に、固有情報を確定する。
実施の形態3では、固有情報確定部306は、確定された固有情報と、固有情報を確定した際に用いた説明部分とを示す修正用データを生成し、その修正用データを音声認識結果修正部311に与える。The unique
In the third embodiment, the unique
音声認識結果修正部311は、固有情報確定部306から与えられる修正用データを用いて、音声認識部303から与えられる音声テキストデータを修正する。例えば、音声認識結果修正部311は、音声テキストデータにおいて、固有情報確定部306で確定された固有情報に対応する部分を、その固有情報で置き換えることで、音声テキストデータを修正する。
The voice recognition
具体的には、音声認識結果修正部311は、修正用データで示されている説明部分を音声テキストデータから検索し、その説明部分に含まれている文字又は文字列に対応する部分のテキストを、固有情報に対応する部分と判断して、音声テキストデータの内、固有情報に対応する部分を、修正用データで示されている固有情報で置き換える。
例えば、音声認識結果修正部311は、図2又は図3で示されている説明抽出ルールに従って、<ENTITY>又は<NAME>の部分のテキストを、固有情報に対応する部分と判断する。そして、音声認識結果修正部311は、音声テキストデータの内、その固有情報に対応する部分のテキストと一致する部分を、固有情報で置き換える。Specifically, the voice recognition
For example, the voice recognition
以上に記載された音声認識結果修正部311は、プロセッサ12が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ11に記憶されているものとする。
The voice recognition
次に動作について説明する。
なお、実施の形態3においても、説明DB105に記憶されている説明表現情報を更新する動作については、実施の形態2と同様である。
図14は、実施の形態3に係る通話データ情報抽出装置300において、入力される音声信号から固有情報を確定する動作を示すフローチャートである。Next, the operation will be described.
Also in the third embodiment, the operation of updating the explanatory expression information stored in the
FIG. 14 is a flowchart showing an operation of determining unique information from an input voice signal in the call data
図14において、図10に示されているフローチャートのステップの処理と同様の処理については、図10と同様の符号を付すことで、詳細な説明を省略する。 In FIG. 14, the same processing as the processing of the steps in the flowchart shown in FIG. 10 is designated by the same reference numerals as those in FIG. 10, and detailed description thereof will be omitted.
図14のステップS10~S15までの処理は、図10のステップS10~15までの処理と同様である。
但し、図14のステップS12において、音声認識部303は、生成された音声テキストデータを、説明部分抽出部204及び音声認識結果修正部311に与える。
また、図14のステップS15において、固有情報確定部306は、確定された固有情報と、固有情報を確定した際に用いた説明部分とを示す修正用データを生成し、その修正用データを音声認識結果修正部311に与える。そして、図14のステップS15の処理の後は、処理はステップS36に進む。The process of steps S10 to S15 in FIG. 14 is the same as the process of steps S10 to 15 of FIG.
However, in step S12 of FIG. 14, the
Further, in step S15 of FIG. 14, the unique
ステップS36では、音声認識結果修正部311は、固有情報確定部306から与えられる修正用データを用いて、音声認識部303から与えられる音声テキストデータを修正する。
なお、音声認識結果修正部311は、修正された音声テキストデータを別の装置(図示せず)又は後段の処理部(図示せず)に出力してもよい。In step S36, the voice recognition
The voice recognition
以上のように、実施の形態3によれば、確定された固有情報によって、音声認識結果を修正することができる。 As described above, according to the third embodiment, the voice recognition result can be modified by the determined unique information.
実施の形態4.
図15は、実施の形態4に係る情報処理装置である通話データ情報抽出装置400の構成を概略的に示すブロック図である。
通話データ情報抽出装置400は、音声入力部101と、音声取得部102と、音声認識部403と、説明部分抽出部204と、説明DB405と、固有情報確定部306と、入力受付部207と、伝票データ生成部408と、伝票データ記憶部409と、DB更新部410と、音声認識結果修正部311と、応答生成部412と、応答出力部413とを備える。Embodiment 4.
FIG. 15 is a block diagram schematically showing the configuration of the call data
The call data
実施の形態4に係る通話データ情報抽出装置400の音声入力部101及び音声取得部102は、実施の形態1に係る通話データ情報抽出装置100の音声入力部101及び音声取得部102と同様である。
また、実施の形態4に係る通話データ情報抽出装置400の説明部分抽出部204及び入力受付部207は、実施の形態2に係る通話データ情報抽出装置200の説明部分抽出部204及び入力受付部207と同様である。
さらに、実施の形態4に係る通話データ情報抽出装置400の固有情報確定部306及び音声認識結果修正部311は、実施の形態3に係る通話データ情報抽出装置300の固有情報確定部306及び音声認識結果修正部311と同様である。The
Further, the explanatory
Further, the unique
音声認識部403は、実施の形態1の音声認識部103と同様に音声テキストデータを生成する。
実施の形態4では、音声認識部403は、生成された音声テキストデータを、説明部分抽出部204、音声認識結果修正部311及び応答生成部412に与える。The
In the fourth embodiment, the
説明DB405は、説明表現と、その説明表現により書き方が説明される文字又は文字列と、その文字又は文字列の読みとを示す説明表現情報を記憶する。
The
伝票データ生成部408は、入力受付部207を介して、オペレータから、伝票データ記憶部409に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現で書き方が説明された文字又は文字列と、その文字又は文字列の読み方との入力を受けて、対応する説明表現と、入力された文字又は文字列と、その読み方とを示す伝票データを生成する。そして、伝票データ生成部408は、生成された伝票データを、伝票データ記憶部409に記憶させる。
The slip
DB更新部410は、伝票データ記憶部409に、伝票データが記憶されると、記憶された伝票データに基づいて、説明DB405に記憶されている説明表現情報を更新する。例えば、DB更新部410は、伝票データで示されている説明表現と、文字又は文字列と、その読み方とを説明表現情報に追加する。
When the slip data is stored in the slip
応答生成部412は、音声認識部403で認識された音声に含まれている文字又は文字列を特定し、説明DB405に記憶されている説明表現情報を参照することで、特定された文字又は特定された文字列を説明している説明表現から、特定された文字又は特定された文字列の書き方を問い合わせる疑問文を示す応答データを生成する。
The
具体的には、応答生成部412は、音声テキストデータで示される発話内容に名前、住所等の特定の表現が含まれる場合に、説明DB405に記憶されている説明表現情報を参照することで、その特定の表現に対応する説明表現を取得する。
そして、応答生成部412は、取得された説明表現を用いた疑問文を生成し、その疑問文を示す応答データを生成する。ここでは、応答データは、その疑問文を音声で示すデータとするが、画像又はテキストで示すデータであってもよい。生成された応答データは、応答出力部413に与えられる。Specifically, the
Then, the
応答出力部413は、応答生成部412から与えられる応答データを出力する。
例えば、応答出力部413は、応答データが音声データである場合には、その音声データに基づいて疑問文の音声を出力する。
なお、応答出力部413は、応答データが画像データ又はテキストデータである場合には、画像又はテキストを表示してもよい。The
For example, when the response data is voice data, the
When the response data is image data or text data, the
実施の形態4によれば、音声認識された内容に、例えば、名前が含まれている場合に、「斉藤は、簡単な方の斉藤ですね?」、又は、「中村俊輔はサッカー選手の中村ですね?」といった、その名前の漢字又は綴りを確認する応答を行うことができる。 According to the fourth embodiment, when the voice-recognized content includes, for example, a name, "Saito is the simpler Saito, isn't it?" Or "Shunsuke Nakamura is the soccer player Nakamura. You can make a response to confirm the kanji or spelling of the name, such as "Isn't it?"
以上に記載された応答生成部412は、プロセッサ12が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ11に記憶されているものとする。
応答出力部413は、音声I/F13により実現可能である。なお、応答出力部413は、図示されていないが、画像又はテキストを表示するための表示I/Fであってもよい。The
The
以上に記載された実施の形態1~4では、音声入力部101で音声信号の入力を受け付けて、音声取得部102で音声信号をデジタルの音声データに変換しているが、実施の形態1~4は、このような例に限定されない。例えば、通話データ情報抽出装置100~400は、図9に示されているネットワークI/F15により実現される通信部(図示せず)を介して、デジタルの音声データを取得して、その音声データを音声認識部103に与えてもよい。また、通話データ情報抽出装置100~400は、図9に示されているメモリ11により実現される記憶部(図示せず)に事前に、デジタルの音声データが記憶されており、その音声データを音声認識部103に与えてもよい。
In the above-described embodiments 1 to 4, the
100,200,300,400 通話データ情報抽出装置、 101 音声入力部、 102 音声取得部、 103,303 音声認識部、 104,204 説明部分抽出部、 105,405 説明DB、 106,306 固有情報確定部、 207 入力受付部、 208,408 伝票データ生成部、 209,409 伝票データ記憶部、 210,410 DB更新部、 311 音声認識結果修正部、 412 応答生成部、 413 応答出力部。 100,200,300,400 Call data information extraction device, 101 voice input unit, 102 voice acquisition unit, 103,303 voice recognition unit, 104,204 explanation partial extraction unit, 105,405 explanation DB, 106,306 unique information confirmation Unit, 207 input reception unit, 208,408 slip data generation unit, 209,409 slip data storage unit, 210,410 DB update unit, 311 voice recognition result correction unit, 412 response generation unit, 413 response output unit.
Claims (7)
前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部と、
前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を記憶する説明表現情報記憶部と、
前記説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部と、を備えること
を特徴とする情報処理装置。 A voice recognition unit that recognizes the spoken voice from voice data including the spoken voice, and
An explanatory part extraction unit that extracts an explanatory part that is a part including a character or a character string and an explanatory expression explaining how to write the character or the character string from the recognized voice.
An explanatory expression information storage unit that stores explanatory expression information that associates the explanatory expression with the character or the character string described in the explanatory expression.
An information processing apparatus comprising: a unique information determination unit that determines the character or the character string described in the explanatory expression as unique information by referring to the explanatory expression information .
を特徴とする請求項1に記載の情報処理装置。 The explanatory partial extraction unit extracts a portion of the recognized voice that matches the explanatory extraction rule, which is a rule of expression used to explain how to write the character or the character string, as the explanatory portion. The information processing apparatus according to claim 1.
前記入力受付部に入力された前記文字又は前記文字列と、前記入力受付部に入力された前記文字又は前記文字列の書き方を説明する前記説明表現とを対応付けて前記説明表現情報の一部として前記説明表現情報記憶部に記憶する更新部と、をさらに備えること
を特徴とする請求項1又は2に記載の情報処理装置。 An input receiving unit that accepts input of the character or the character string described by the explanatory expression included in the explanatory portion, and
A part of the explanatory expression information in association with the character or the character string input to the input receiving unit and the explanatory expression explaining how to write the character or the character string input to the input receiving unit. The information processing apparatus according to claim 1 or 2 , further comprising an update unit that stores the information in the explanatory expression information storage unit.
前記音声テキストデータにおいて、前記固有情報確定部で確定された前記固有情報に対応する部分を、前記固有情報確定部で確定された前記固有情報で置き換えることで、前記音声テキストデータを修正する音声認識結果修正部をさらに備えること
を特徴とする請求項1から3の何れか一項に記載の情報処理装置。 The voice recognition unit generates voice text data, which is text data indicating the recognized voice, and generates voice text data.
In the voice text data, the voice recognition that corrects the voice text data by replacing the portion corresponding to the unique information confirmed by the unique information confirmation unit with the unique information confirmed by the unique information confirmation unit. The information processing apparatus according to any one of claims 1 to 3 , further comprising a result correction unit.
を特徴とする請求項1から3の何れか一項に記載の情報処理装置。 The explanatory expression explaining the specified character or the specified character string by specifying the character or the character string included in the recognized voice and referring to the explanatory expression information. The present invention is described in any one of claims 1 to 3, further comprising a response generation unit that generates response data indicating a question sentence inquiring about how to write the specified character or the specified character string. Information processing equipment.
発話された音声を含む音声データから、前記発話された音声を認識する音声認識部、
前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部、
前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を記憶する説明表現情報記憶部、及び、
前記説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部、として機能させること
を特徴とするプログラム。 Computer,
A voice recognition unit that recognizes the spoken voice from voice data including the spoken voice,
An explanatory part extraction unit that extracts an explanatory part that is a part including a character or a character string and an explanatory expression explaining how to write the character or the character string from the recognized voice.
An explanatory expression information storage unit that stores explanatory expression information that associates the explanatory expression with the character or the character string described in the explanatory expression, and
A program characterized in that, by referring to the explanatory expression information, the character or the character string described in the explanatory expression functions as a unique information determination unit that determines the unique information.
説明部分抽出部が、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出し、
固有情報確定部が、前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定すること
を特徴とする情報処理方法。 The voice recognition unit recognizes the spoken voice from the voice data including the spoken voice, and the voice recognition unit recognizes the spoken voice.
The explanation part extraction unit extracts an explanation part which is a part including a character or a character string and an explanation expression explaining how to write the character or the character string from the recognized voice.
The unique information determination unit refers to the explanatory expression information associated with the explanatory expression and the character or the character string described in the explanatory expression, whereby the character or the character described in the explanatory expression or the said. An information processing method characterized by determining a character string as unique information.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/038878 WO2021064886A1 (en) | 2019-10-02 | 2019-10-02 | Information processing device, program, and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021064886A1 JPWO2021064886A1 (en) | 2021-04-08 |
JP6991409B2 true JP6991409B2 (en) | 2022-01-12 |
Family
ID=75337090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021550833A Active JP6991409B2 (en) | 2019-10-02 | 2019-10-02 | Information processing equipment, programs and information processing methods |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6991409B2 (en) |
TW (1) | TW202115713A (en) |
WO (1) | WO2021064886A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017203764A1 (en) | 2016-05-23 | 2017-11-30 | ソニー株式会社 | Information processing device and information processing method |
-
2019
- 2019-10-02 JP JP2021550833A patent/JP6991409B2/en active Active
- 2019-10-02 WO PCT/JP2019/038878 patent/WO2021064886A1/en active Application Filing
-
2020
- 2020-01-16 TW TW109101504A patent/TW202115713A/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017203764A1 (en) | 2016-05-23 | 2017-11-30 | ソニー株式会社 | Information processing device and information processing method |
Also Published As
Publication number | Publication date |
---|---|
TW202115713A (en) | 2021-04-16 |
WO2021064886A1 (en) | 2021-04-08 |
JPWO2021064886A1 (en) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US6735565B2 (en) | Select a recognition error by comparing the phonetic | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
JP2007512608A (en) | Topic-specific models for text formatting and speech recognition | |
WO1998013822A1 (en) | Method of and system for recognizing a spoken text | |
JPH10507536A (en) | Language recognition | |
EP2308042A2 (en) | Method and device for generating vocabulary entry from acoustic data | |
JP2002132287A (en) | Speech recording method and speech recorder as well as memory medium | |
CN109300468B (en) | Voice labeling method and device | |
CN113362817A (en) | Speech recognition error correction device, speech recognition error correction method, and speech recognition error correction program | |
JP2002062891A (en) | Phoneme assigning method | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2004094257A (en) | Method and apparatus for generating question of decision tree for speech processing | |
JP6991409B2 (en) | Information processing equipment, programs and information processing methods | |
JP5334716B2 (en) | Character information presentation control device and program | |
JP2008293098A (en) | Answer score information generation device and interactive processor | |
KR102299269B1 (en) | Method and apparatus for building voice database by aligning voice and script | |
JP6849977B2 (en) | Synchronous information generator and method for text display and voice recognition device and method | |
JP3378547B2 (en) | Voice recognition method and apparatus | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
JP2004309928A (en) | Speech recognition device, electronic dictionary device, speech recognizing method, retrieving method, and program | |
JP2000099070A (en) | Voice recognition device and method therefore, computer readable memory | |
JP5772219B2 (en) | Acoustic model generation apparatus, acoustic model generation method, and computer program for acoustic model generation | |
KR102217621B1 (en) | Apparatus and method of correcting user utterance errors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211001 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211001 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20211001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6991409 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |