JP2012189908A - Sound recognition device and sound recognition processing method - Google Patents
Sound recognition device and sound recognition processing method Download PDFInfo
- Publication number
- JP2012189908A JP2012189908A JP2011054764A JP2011054764A JP2012189908A JP 2012189908 A JP2012189908 A JP 2012189908A JP 2011054764 A JP2011054764 A JP 2011054764A JP 2011054764 A JP2011054764 A JP 2011054764A JP 2012189908 A JP2012189908 A JP 2012189908A
- Authority
- JP
- Japan
- Prior art keywords
- priority
- voice
- speech recognition
- data
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明の実施形態は、例えば、コールセンタシステムで用いられる音声認識装置の優先度付けによる処理に関する。 Embodiments of the present invention relate to processing by prioritizing voice recognition devices used in, for example, call center systems.
通信販売、製品やサービスのサポートデスク、又は資料請求等の対応を行うコールセンタシステムでは、ユーザとオペレータとの通話を録音し、録音された音声を音声認識装置によって音声認識を行ってテキスト化し、通話終了後に内容をテキストで確認することができるようになっている。このような音声認識を行うコールセンタシステムでは、録音された順番に音声認識処理を実施している。この音声認識処理は、コールセンタで同時に多数の通話が録音されることから通話と同時に処理されるような処理速度ではない。コールセンタで録音された1日分の録音データの音声認識処理は、例えば、録音された日の翌日、又は翌々日に完了する。すなわち、コールセンタシステムでの音声認識処理は、上記のように時間がかかり、通話内容をテキストで確認することができるまでに相当の時間を要していた。 In a call center system that handles mail order sales, product / service support desks, or requests for materials, etc., a call between a user and an operator is recorded, and the recorded voice is converted into text by voice recognition using a voice recognition device. The contents can be confirmed by text after the end. In a call center system that performs such voice recognition, voice recognition processing is performed in the order of recording. This voice recognition process is not a processing speed that is processed simultaneously with a call because a large number of calls are recorded at the call center at the same time. The voice recognition processing of the recorded data for one day recorded at the call center is completed, for example, on the next day or two days after the recorded date. That is, the voice recognition processing in the call center system takes time as described above, and it takes a considerable time until the contents of the call can be confirmed by text.
ところで、コールセンタにおける音声認識処理に関し、発信者がオペレータ端末と接続されるまでの間の発信者の音声を音声認識し、音声認識の結果、NGワードと一致した場合に待呼の順番を優先的に先頭に変更させるシステムが知られている。 By the way, regarding the voice recognition processing in the call center, the caller's voice until the caller is connected to the operator terminal is voice-recognized, and when the result of the voice recognition matches the NG word, the waiting call order is given priority. There is a known system that changes the head to the top.
しかしながら、コールセンタにおける音声認識処理自体を優先的に行うことはできなく、すぐに通話内容をテキストで確認したい場合や先に音声認識処理を行うべき処理に応対することができない。 However, the speech recognition process itself in the call center cannot be preferentially performed, and it is not possible to respond to the case where it is desired to immediately confirm the contents of the call in text or to perform the speech recognition process first.
そこで、目的は、音声認識処理を行う場合に、優先度に応じて音声認識処理を行うことができる音声認識装置及び音声認識処理方法を提供することにある。 Accordingly, an object of the present invention is to provide a speech recognition apparatus and a speech recognition processing method capable of performing speech recognition processing according to priority when performing speech recognition processing.
上記目的を達成するための音声認識装置は、音声データを外部から取得する音声取得手段と、前記音声データを、前記音声取得手段により記録される一次出力データベースと、
処理すべき優先度に応じた条件を記憶する優先度メモリと、音声データを音声認識してテキスト化する音声認識処理手段と、前記一次出力データベースに記録される前記音声データを、前記優先度メモリに記憶される条件と比較し、前記条件に一致した音声データを前記条件の優先度に応じて前記音声認識処理手段へ出力する優先度制御手段と、前記音声認識処理手段により音声認識処理された音声認識結果を音声認識結果データベースへ格納する格納処理手段とを備えることを特徴とする。
A voice recognition apparatus for achieving the above object includes voice acquisition means for acquiring voice data from the outside, a primary output database in which the voice data is recorded by the voice acquisition means,
A priority memory for storing a condition corresponding to a priority to be processed; voice recognition processing means for voice-recognizing voice data; converting the voice data recorded in the primary output database into the priority memory; Compared to the condition stored in the above, the priority control means for outputting the voice data that matches the condition to the voice recognition processing means according to the priority of the condition, and the voice recognition processing by the voice recognition processing means Storage processing means for storing the speech recognition result in the speech recognition result database.
また、上記目的を達成するための音声認識処理方法は、音声データを外部から取得する音声取得ステップと、前記音声データを、前記音声取得ステップにより一次出力データベースへ記録する一次記録ステップと、音声データを音声認識してテキスト化する音声認識処理ステップと、前記一次出力データベースに記録される前記音声データを、処理すべき優先度に応じた条件を記憶する優先度メモリに記憶される条件と比較し、前記条件に一致した音声データを前記条件の優先度に応じて音声認識処理を行わせる優先度制御ステップと、前記音声認識処理ステップにより音声認識処理された音声認識結果を音声認識結果データベースへ格納する格納処理ステップとを有することを特徴とする。 In addition, a voice recognition processing method for achieving the above object includes a voice acquisition step of acquiring voice data from the outside, a primary recording step of recording the voice data in a primary output database by the voice acquisition step, and voice data A speech recognition processing step for recognizing the text and converting it to text, and comparing the speech data recorded in the primary output database with a condition stored in a priority memory for storing a condition corresponding to a priority to be processed. A priority control step of performing voice recognition processing on the voice data matching the condition according to the priority of the condition, and storing the voice recognition result subjected to the voice recognition processing by the voice recognition processing step in the voice recognition result database And a storage processing step.
以下、図面を参照しながら、本実施形態に係る音声認識装置及び音声認識処理方法を説明する。 Hereinafter, a voice recognition device and a voice recognition processing method according to the present embodiment will be described with reference to the drawings.
図1は、一実施の形態を示すコールセンタシステムの構成を示すブロック図である。このコールセンタシステムは、例えばIP化されたシステムであり、IP交換装置100、通話録音装置200、通話音声データベース200D、音声認識装置300、音声認識結果データベース300D、顧客データベース400D、及び、電話端末11、12(以下、電話端末10と総称する。)を有する。
FIG. 1 is a block diagram showing a configuration of a call center system showing an embodiment. This call center system is, for example, an IP system, and includes an
IP交換装置100は、IP網400及びLAN(ローカルエリアネットワーク)と接続され、IP網400からの発信を電話端末10へ着信させる。また、IP交換装置100は、電話端末10からの発信を発信先へ接続する。さらに、IP交換装置100は、電話端末10との通話の音声データを、LANを介して通話録音装置200へ送る。
The
通話録音装置200は、LANを介してIP交換装置100からその通話の音声データを受け取り、受け取った音声データを通話音声データベース200Dへ記録する。また、通話録音装置200は、音声データ毎にオペレータの識別番号や発信番号等の管理情報を関連付けして通話音声データベース200Dへ記録する。この管理情報は、IP交換装置100から通話録音装置200へ音声データとともにオペレータの識別番号や発信番号を送られてくる。または、オペレータの識別番号、発信番号、後述する業務番号は、オペレータによるPC20の操作に基づき通話録音装置200に送られてもよい。なお、通話音声データベース200Dには、録音した順に音声データ及びその管理情報が記録される。
The
音声認識装置300は、通話録音装置200によって通話音声データベース200Dに記録された音声データを取得するために、通話音声録音装置200に対して通話音声取得要求を行って音声データを取得する。また、音声認識装置300は、取得した音声データを音声認識してテキスト化し、音声認識結果データベース300Dへ記録する。
In order to acquire the voice data recorded in the
顧客データベース400Dは、このコールセンタで応対する顧客の情報を記録する。後述するPC(パーソナルコンピュータ)20によって、顧客情報が読み出される。
The
電話端末10は、IP交換装置100とLANを介して接続され、オペレータにより外部との通話に用いられる。なお、電話端末10は、LANに接続されるPC20と予め対応付けされてもよく、電話端末10とPCとが対応付けされている場合は、電話応対中のオペレータがPC20を操作することにより、顧客データベース400Dに記録された顧客情報を閲覧又は更新を行うことができる。
The telephone terminal 10 is connected to the
なお、図1では電話端末10は2台のみ示したが、LANには多数の電話端末が接続される。 Although only two telephone terminals 10 are shown in FIG. 1, a large number of telephone terminals are connected to the LAN.
図2は、音声認識装置300の構成を示す機能ブロック図である。音声認識装置300は、LANインタフェース(I/F)部301、音声取得処理部302、一次出力データベース303、優先度制御部304、優先度メモリ305、音声認識処理部306、格納処理部307、及び、登録処理部308を備える。
FIG. 2 is a functional block diagram showing the configuration of the
音声取得処理部302は、例えば、定期的に通話録音装置200に対して通話音声取得要求を行い、この通話音声取得要求に応じて通話録音装置200から送られてくる音声データとこの音声データに関連付けされた管理情報をLANインタフェース部301から受け取って一次出力データベース303に書き込む。また、次に音声データを取得した場合は、一次出力データベース303内に未だ残っている音声データの管理情報の次に今回取得した音声データの管理情報を書き込む。すなわち、取得した順に音声データが並べられる。
For example, the voice
一次出力データベース303に書き込まれる情報は、通話音声データベース200Dに記録される情報と同様である。一次出力データベース303に記録される情報の例を図3に示す。図3には、音声データを識別するための「通話1」等の通話識別番号、発信番号、後述する業務番号、及び、オペレータの識別番号が記録される。例えば、「通話1」は、発信番号が030−1111−2222、業務番号が21、オペレータが佐藤さん(オペレータ識別番号が011452)であることが記録されている。「通話2」以降についても、同様に記録されている。
The information written in the
優先度メモリ305は、優先すべき音声データに関する情報を記憶し、優先度制御部304によって優先度情報を参照される。なお、この優先すべき音声データに関する情報は、例えば、コールセンタでの応対内容を示す業務番号、重要顧客の発信番号、又は、新人オペレータの識別番号等である。ここで、業務番号とは、キャンペーンに関する通話、修理に関する通話、問合せに関する通話等、オペレータの応対内容に応じて割り振られる番号である。特定の業務番号を優先することは、特定のキャンペーンについての集計を行う際、集計タイミングが近づいている場合にそのキャンペーンに関する通話の音声データを先に音声認識を行う場合に有効である。また、重要顧客のニーズをいち早く生かすために重要顧客の発信番号を優先して音声認識したり、新人オペレータの教育のために特定のオペレータが応対した通話の音声を優先して音声認識したりすることが可能になる。
The
優先度制御部304は、優先度メモリ305に記憶される優先すべき通話の音声データに関する管理情報と、一次出力データベース303に書き込まれた音声データの発信番号、業務番号、オペレータ識別番号等とを照合し、一次出力データベース303に書き込まれた音声データが優先すべき処理対象か否かを、一次出力データベース303に書き込まれた管理情報の順に判断する。また、優先度制御部304は、優先して処理すべき音声データと判断した音声データを、一次出力データベース303から読み出して順に音声認識処理部306へ出力する。優先して処理すべき音声データがなければ、優先して処理しなくてよい音声データを、一次出力データベース303に書き込まれた順に音声認識処理部306へ出力する。また、優先度制御部304は、一次出力データベース303から音声データを音声認識処理部306へ出力する場合に、出力した音声データの管理情報に優先度情報を付加して格納処理部307へ出力する。
The
なお、優先度制御部304はタイマを備え、一定時間のみ優先して処理しなくてよい音声データを音声認識処理部306へ出力するようにしてもよい。この場合、優先度制御部304は、タイマがタイムアウトした場合に、タイムアウトを音声取得処理部302に通知し、音声取得処理部302は、このタイムアウトの通知を契機に通話録音装置200に対して通話音声取得要求を行うようにしてもよい。
Note that the
このように、タイマを用いて優先しなくてよい音声データを音声認識処理部306へ出力する処理を一定時間に限定し、タイムアウトした場合に次に録音された音声データを取得するようにすることで、優先して処理すべき音声データを優先して処理することができる。タイマがない場合は、一次出力データベース303に優先して処理すべき音声データが無くなるまで、優先しなくてよい音声データの音声認識処理を行うことができないが、このタイマを用い音声データの取得と連動させることで、優先しなくてよい音声データについての音声認識処理を少しずつ(優先度を下げて)行うことができる。
In this way, the process of outputting the voice data that does not need to be prioritized using the timer to the voice
音声認識処理部306は、内部にバッファを備え、優先度制御部304によりそのバッファに音声データが書き込まれる。音声認識処理部306は、そのバッファに書き込まれた音声データを書き込まれた順に音声認識処理を行い、音声認識した結果としてテキストデータを格納処理部307に出力する。
The voice
格納処理部307は、音声認識処理部306から受け取った音声認識結果であるテキストデータと、優先度制御部304から送られてくる優先度情報が付加された管理情報とを照合し、テキストデータを、顧客別、業務番号別、又はオペレータ別等に分類し、その分類の中で、優先して処理されたものとそうでないものとをユーザが識別可能に音声認識結果データベース300Dへ記録する。例えば、優先して処理されたものとそうでないものとを別フォルダで管理する。音声認識結果データベース300Dの音声認識結果の記録の例は、図4に示される。
The
このように、分類したり優先か否かをユーザが識別可能にしたりして音声認識結果データベース300Dへ記録することで、音声データをテキストで確認したい場合に優先して確認すべきものがわかりやすくなる。
In this way, by classifying or making it possible to identify whether priority is given or not and recording it in the speech
登録処理部308は、LANインタフェース部301から入力される優先度情報の登録要求に応じて、優先度情報を優先度メモリ305に記憶する。例えば、オペレータがPC20を操作して音声認識装置300に対して優先度情報の登録要求を行う。このとき、顧客に応じた優先度情報の登録要求を行う場合は、PC20から顧客データベース400Dを参照して、顧客の情報を閲覧する。
The
図5は、音声認識装置における優先度に応じた音声認識処理の動作を示すシーケンス図である。 FIG. 5 is a sequence diagram showing the operation of the speech recognition process according to the priority in the speech recognition apparatus.
まず、音声取得処理部302は、通話録音装置200に対して通話音声要求通知を出力して音声データとその管理情報とをLANインタフェース301から受け取り(S1)、一次出力データベース303に書き込む(S2)。優先度制御部304は、一次出力データベース303に書き込まれた音声データの管理情報と優先度メモリ305とを照合して、優先すべき処理対象が有るか否かを判断する(S3)。優先すべき処理対象がある場合(ステップS3でYes)は、管理情報の順に優先度を判定し(S4)、判定の結果、優先すべき処理対象であれば(ステップS4で優先)優先すべき音声データを音声認識処理部306へ出力する(S5)。このとき、優先度制御部304は、その音声データの管理情報を格納処理部307へ出力する。その後、優先すべき処理対象の有無の判断を行う(S3)。また、優先度判定の結果、優先すべき処理対象でなければ(ステップS4で非優先)その音声データを一次出力DBから取り出さず、次の音声データの優先度判断を続ける(S6)。
First, the voice
ステップS3で優先すべき処理対象が無い場合(ステップS3でNo)は、優先でない音声データを一次出力データベース303から取り出して音声認識処理部306へ出力する。このとき、優先度制御部304は、その音声データの管理情報を格納処理部307へ出力する。その後、タイマがタイムアウトしたか否かを判断し(S8)、タイムアウトしていなければ(ステップS8でNo)ステップS7の優先でない音声データを音声認識処理部306へ出力する処理を継続し、タイムアウトした場合(ステップS8でYes)は、ステップS1へ戻り音声データを通話録音装置200から取得する。
If there is no processing target to be prioritized in step S3 (No in step S3), non-prioritized speech data is extracted from the
以上のように、音声認識装置に音声認識処理を優先して行うべき条件を予め記憶しておき、その条件と一致した音声データを音声認識処理することで、音声認識処理を優先度に応じて処理することができる。また、音声認識結果を、優先か否かをユーザが識別可能にして音声認識結果データベース300Dへ記録することで、テキストを確認する場合に、優先のものを纏めて確認することができる。
As described above, the voice recognition apparatus stores in advance the conditions for performing voice recognition processing with priority, and performs voice recognition processing on voice data that matches the conditions, so that the voice recognition processing is performed according to priority. Can be processed. Further, by recording the voice recognition result in the voice
本発明は、以上の構成に限定されるものではなく、種々の変形が可能である。例えば、上記実施形態では、音声認識装置300が備える優先度制御部304は、一次出力データベース303に記録されている音声データの優先度を判断した後に一次出力データベース303から音声データを取り出して音声認識処理部306へ出力したが、優先度制御部304は、内部にメモリを備えて、一次出力データベースから音声データの管理情報(または管理情報と音声データと)を取得し、非優先と判断された音声データについては、その管理情報(または管理情報と音声データと)を一次出力データベースへ戻すようにしてもよい。また、上記実施形態では、優先度を、優先または非優先としたが、優先の度合いによって3つ以上の段階に分けて、優先度の高いものから処理するようにしてもよい。
The present invention is not limited to the above configuration, and various modifications are possible. For example, in the above embodiment, the
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 In addition, although some embodiment of this invention was described, these embodiment is shown as an example and is not intending limiting the range of invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
10,11,12…電話端末、20…PC、100…IP交換装置、200…通話録音装置、200D…通話音声データベース、300…音声認識装置、300D…音声認識結果データベース、301…LANインタフェース部、302…音声取得処理部、303…一次出力データベース、304…優先度制御部。305…優先度メモリ、306…音声認識処理部、307…格納処理部、308…登録処理部、400…IP網。
DESCRIPTION OF
Claims (6)
前記音声データを、前記音声取得手段により記録される一次出力データベースと、
処理すべき優先度に応じた条件を記憶する優先度メモリと、
音声データを音声認識してテキスト化する音声認識処理手段と、
前記一次出力データベースに記録される前記音声データを、前記優先度メモリに記憶される条件と比較し、前記条件に一致した音声データを前記条件の優先度に応じて前記音声認識処理手段へ出力する優先度制御手段と、
前記音声認識処理手段により音声認識処理された音声認識結果を音声認識結果データベースへ格納する格納処理手段と
を備えることを特徴とする音声認識装置。 Audio acquisition means for acquiring audio data from outside;
The voice data, a primary output database recorded by the voice acquisition means;
A priority memory for storing conditions according to the priority to be processed;
Speech recognition processing means for recognizing speech data and converting it into text;
The voice data recorded in the primary output database is compared with a condition stored in the priority memory, and voice data that matches the condition is output to the voice recognition processing means according to the priority of the condition. Priority control means;
A speech recognition apparatus comprising: storage processing means for storing a speech recognition result subjected to speech recognition processing by the speech recognition processing means in a speech recognition result database.
前記格納処理手段は、前記優先度制御手段より通知される優先度情報に基づき、前記音声認識結果を優先度毎に前記音声認識結果データベースへ格納することを特徴とする請求項1に記載の音声認識装置。 The priority control unit notifies the storage processing unit of the priority information of the voice data as the voice data is output to the voice recognition processing unit according to the priority of the condition.
The voice according to claim 1, wherein the storage processing means stores the voice recognition result in the voice recognition result database for each priority based on priority information notified from the priority control means. Recognition device.
前記音声データを、前記音声取得ステップにより一次出力データベースへ記録する一次記録ステップと、
音声データを音声認識してテキスト化する音声認識処理ステップと、
前記一次出力データベースに記録される前記音声データを、処理すべき優先度に応じた条件を記憶する優先度メモリに記憶される条件と比較し、前記条件に一致した音声データを前記条件の優先度に応じて音声認識処理を行わせる優先度制御ステップと、
前記音声認識処理ステップにより音声認識処理された音声認識結果を音声認識結果データベースへ格納する格納処理ステップと
を有することを特徴とする音声認識処理方法。 An audio acquisition step for acquiring audio data from the outside;
A primary recording step of recording the audio data in a primary output database by the audio acquisition step;
A speech recognition processing step for recognizing speech data and converting it into text;
The audio data recorded in the primary output database is compared with a condition stored in a priority memory that stores a condition corresponding to a priority to be processed, and audio data that matches the condition is compared with the priority of the condition. A priority control step for performing voice recognition processing according to
And a storage processing step of storing the speech recognition result subjected to the speech recognition processing in the speech recognition processing step in a speech recognition result database.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011054764A JP2012189908A (en) | 2011-03-11 | 2011-03-11 | Sound recognition device and sound recognition processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011054764A JP2012189908A (en) | 2011-03-11 | 2011-03-11 | Sound recognition device and sound recognition processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012189908A true JP2012189908A (en) | 2012-10-04 |
Family
ID=47083105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011054764A Withdrawn JP2012189908A (en) | 2011-03-11 | 2011-03-11 | Sound recognition device and sound recognition processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012189908A (en) |
-
2011
- 2011-03-11 JP JP2011054764A patent/JP2012189908A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105027196B (en) | It is searched for outside quick vocabulary in automatic speech recognition system | |
US9288320B2 (en) | System and method for servicing a call | |
US20140244249A1 (en) | System and Method for Identification of Intent Segment(s) in Caller-Agent Conversations | |
US9386153B1 (en) | Identifying information resources for contact center agents based on analytics | |
US20150242410A1 (en) | Tag-based performance framework for contact center | |
US10250744B2 (en) | Call center system and voice recognition control method of the same | |
US8009821B1 (en) | Stores as call center resources | |
US8767927B2 (en) | System and method for servicing a call | |
US8767928B2 (en) | System and method for servicing a call | |
US10116793B2 (en) | Method and system for learning call analysis | |
US20150032515A1 (en) | Quality Inspection Processing Method and Device | |
JP2016143909A (en) | Telephone conversation content analysis display device, telephone conversation content analysis display method, and program | |
JP2014178381A (en) | Voice recognition device, voice recognition system and voice recognition method | |
JP2019144400A (en) | Controller, control method and computer program | |
JP2016225740A (en) | Speech communication distribution system, call control device and program | |
WO2023090380A1 (en) | Program, information processing system, and information processing method | |
JP2012189908A (en) | Sound recognition device and sound recognition processing method | |
JP2012203066A (en) | Voice recognition device and voice recognition processing method | |
US20060203989A1 (en) | Automated follow-up call in a telephone interaction system | |
JP2009290532A (en) | Call receiving system, call receiving method and call receiving program | |
TW202116049A (en) | Automatic call distribution system and automatic call distribution method | |
KR20200061107A (en) | Voice recognition based customer response system | |
JP2017163198A (en) | Voice recognition system, connection device, and voice recognition method | |
JP5748050B2 (en) | Information providing apparatus and information providing method | |
JP6417825B2 (en) | Call distribution apparatus, method and program, and call processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |