JP6767796B2 - 通話管理システム及びその音声認識制御方法 - Google Patents

通話管理システム及びその音声認識制御方法 Download PDF

Info

Publication number
JP6767796B2
JP6767796B2 JP2016135812A JP2016135812A JP6767796B2 JP 6767796 B2 JP6767796 B2 JP 6767796B2 JP 2016135812 A JP2016135812 A JP 2016135812A JP 2016135812 A JP2016135812 A JP 2016135812A JP 6767796 B2 JP6767796 B2 JP 6767796B2
Authority
JP
Japan
Prior art keywords
call
mode
voice recognition
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016135812A
Other languages
English (en)
Other versions
JP2018005167A (ja
Inventor
英寿 有川
英寿 有川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2016135812A priority Critical patent/JP6767796B2/ja
Priority to US15/617,188 priority patent/US10170120B2/en
Publication of JP2018005167A publication Critical patent/JP2018005167A/ja
Application granted granted Critical
Publication of JP6767796B2 publication Critical patent/JP6767796B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/551Call history

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、通話管理システム及びその音声認識制御方法に係り、特に、コールセンタにおいて、顧客とオペレータとの通話内容の録音内容を、音声認識する場合に、ハードウェアリソースの消費を抑えつつ、音声認識の結果を利用した顧客対応により顧客の満足度を高めるのに好適な通話管理システム及びその音声認識制御方法に関する。
コールセンタにおいて、サービス品質向上などの目的で通話内容をリアルタイムでテキスト化し監視するということが行なわれている。音声認識を行う音声認識エンジンは、リアルタイムで生成された音声ファイルが作成、更新されるごとに音声をテキスト化する。センタのスーパバイザ(監視者)は、そのテキストをモニタで確認することにより、問題のありそうな通話に対して、その通話を担当するオペレータを熟練したオペレータに切り換えたり、オペレータに対して有効な情報を提供するなどの対応をとることができる。
コールセンタにおける音声認識技術に関しては、例えば、特許文献1がある。特許文献1の通話データ管理システムの音声認識サーバは、音声データから通話開始タイミングを取得して、通話開始タイミングの直後に音声認識を開始させる。
特開2015−177411号公報
特許文献1の通話データ管理システムの音声認識サーバは、上記のように音声データから通話開始タイミングを取得することにより、通話をリアルタイムで音声認識をするものであった。
しかしながら、音声認識のハードウェアのリソースの最適化については考慮されていない。一般に、音声認識の中核となるモジュールである音声認識エンジンは、ハードウェアリソース(CPU(Central Processing Unitやメインメモリ)を多く消費するため、音声認識エンジンを多数稼動させるためには多くのマシンが必要であるという問題点があった。
一方、コールセンタにおける通話内容については、通話内容が簡単な問合せであるなどの比較的対処が容易なものから、顧客のクレームの対応など慎重に対処すべきものなど多岐にわたるのが現状である。したがって、全てのオペレータの通話を逐一監視する必要は必ずしもなく、真に監視が必要な通話に対して、コールセンタのハードウェアリソース、ソフトウェアリソース、ヒューマンリソースをつぎこむのが望ましい。
本発明は、上記問題点を解決するためになされたもので、その目的は、通話内容の録音内容を、音声認識する場合に、ハードウェアリソースの消費を抑えつつ、通話管理システムの運営を効率的に行うことのできる通話管理システム及びその音声認識制御方法を提供することにある。
本発明に係る通話管理システムは、外部回線からの呼にかかる通話を録音して、音声認識して通話をテキスト化して表示する通話管理システムであって、通話データの録音データを音声認識して、テキストデータを出力する音声認識サーバを備える。そして、音声認識サーバは、音声データを音声認識して、テキスト化する音声認識エンジンと、通話ごとに音声認識のモードを保持するモード制御テーブルとを有し、音声認識エンジンは、言語化部に対して、音声認識のモードを指示するモード管理部と、音声認識によりテキスト化された認識結果データを解析する出力解析部とを有し、出力解析部は、音声認識によりテキスト化された認識結果データを解析した結果にしたがって、モード管理部に音声認識のモードを指示し、モード管理部は、出力解析部の指示にしたがい通話ごとにモード制御テーブルに保持された音声認識のモードを書き換え、通話ごとにモード制御テーブルに保持された音声認識のモードにしたがって、言語化部に音声認識のモードを指示する。
本発明によれば、通話内容の録音内容を、音声認識する場合に、ハードウェアリソースの消費を抑えつつ、通話管理システムの運営を効率的に行うことのできる通話管理システム及びその音声認識制御方法を提供することができる。
コールセンタにおける通話管理システムの全体構成図である。 第一の実施形態に係る通話管理システムの機能関連図である。 コールセンタに設置されるサーバのハードウェア・ソフトウェア構成図である。 コールセンタに設置されるサーバにおける並列処理の様子を説明する模式図である。 認識エンジンの構成図である。 通話管理テーブル100の一例を示す図である。 モード制御テーブル301の一例を示す図である。 デフォルトモードテーブル302の一例を示す図である。 出力解析管理テーブル303の一例を示す図である。 オペレータNGワードリスト304の一例を示す図である。 カスタマーNGワードリスト305の一例を示す図である。 モード変更閾値テーブル306の一例を示す図である。 第一の実施形態におけるコールセンタにおける通話管理システムの処理を示すシーケンス図である。 一般的な音声認識エンジンにおける音声認識処理を示すシーケンス図である。 第一の実施形態における音声認識エンジンにおける音声認識処理を示すシーケンス図である(その一)。 第一の実施形態における音声認識エンジンにおける音声認識処理を示すシーケンス図である(その二)。 言語化部における候補を、通常モードと高認識モードの場合で対比して示した図である。 音声認識エンジンにおける音声認識のモードを切り換えるときの処理を示すシーケンス図である。 デフォルトモード設定を説明する模式図である。 第一の実施形態におけるモード設定を説明する模式図である。 音声認識エンジンの出力解析部の認識結果を解析して認識モードを判定する処理を示すフローチャートである。 第二の実施形態に係る通話管理システムの機能関連図である。 第二の実施形態におけるモード設定を説明する模式図である。 要注意電話番号テーブルの一例を示す図である。
以下、本発明に係る各実施形態を、図1ないし図22を用いて説明する。
〔実施形態1〕
以下、本発明に係る第一の実施形態を、図1ないし図19を用いて説明する。
先ず、図1ないし図5を用いて、本発明の第一の実施形態に係るコールセンタにおける通話管理システムの構成について説明する。
図1は、コールセンタにおける通話管理システムの全体構成図である。
図2は、第一の実施形態に係る通話管理システムの機能関連図である。
図3は、コールセンタに設置されるサーバのハードウェア・ソフトウェア構成図である。
図4は、コールセンタに設置されるサーバにおける並列処理の様子を説明する模式図である。
図5は、認識エンジンの構成図である。
本実施形態のコールセンタにおける通話管理システムは、図1に示されるように、顧客等のカスタマー電話機51から公衆網6を介して接続されるIP−PBX(Internet Protocol−Private Branch eXchange、IP回線対応構内交換機)80が、ネットワーク7を介して、オペレータ電話機50と接続し通話をする構成を有する。オペレータは、カスタマー電話機51からの発信を受け、IP−PBX80により、交換処理されて、オペレータ電話機50の通話者であるオペレータと通話し、顧客からの問合せに応えたり、サービスを提供する。
コールセンタシステムは、ネットワーク7を介して、IP−PBX80、ネットワークスイッチ40、通話録音サーバ30、センタ管理サーバ10、音声認識サーバ20、オペレータ電話機50、監視PC60が接続されて構成されている。
IP−PBX80は、顧客のカスタマー電話機51からの呼を受けて、IP網と公衆網6のプロトコル変換、発着信の呼制御などを行う。
ネットワークスイッチ40は、ネットワーク上を流れるパケットの転送経路を学習し、パケットの転送処理を行う装置である。なお、図1では、IP−PBX80と、オペレータ電話機50、通話録音サーバ30のみがネットワークスイッチ40に接続されているが、センタ管理サーバ10、音声認識サーバ20、監視PC60がネットワークスイッチ40に接続されていてもよい。
通話録音サーバ30は、オペレータ電話機50でやりとりされる通話のデータストリームを、IP−PBX80経由で、録音データとして録音するサーバである。
センタ管理サーバ10は、通話情報と、録音情報、音声認識情報を対応付けて管理し、音声認識サーバ20に音声認識に関する指示を与えるサーバである。センタ管理サーバ10は、データベースとして、通話管理テーブル100、音声ファイル120、認識結果ファイル140を保持して管理している。
音声認識サーバ20は、音声データである録音データをテキストデータに変換するサーバである。音声認識サーバ20は、データベースとして、音声認識制御DB300をアクセスする。
オペレータ電話機50は、各オペレータが、オペレータの通話業務に使う機器である。オペレータ電話機50は、顧客のカスタマー電話機51と、公衆網6を介した外線による通話をするための装置である。
監視PC60は、コールセンタの監視者が、コールセンタにおける運営状況や通話に関する情報を表示したり、監視者がコールセンタの機器の制御やオペレータの指示を入力する装置である。特に、本実施形態では、監視PC60に顧客とオペレータの通話を音声認識したテキストを表示する。
次に、図2を用いてコールセンタにおける通話管理システムの各部の機能とデータの関連について説明する。
監視PC60は、通話・録音情報取得部601、音声認識要求部602、モード条件設定部603、認識結果取得部604の各機能ブロックを有する。
通話・録音情報取得部601は、監視者が通話・録音情報のセンタ管理サーバ10が保持する通話管理テーブル100から、コールセンタにおける通話情報や録音情報を取得する部分である。
音声認識要求部602は、センタ管理サーバ10に対して録音データの音声認識を要求する部分である。
モード条件設定部603は、音声認識サーバ20の音声認識モードに関する情報を設定する部分である。音声認識モードについては、後に詳述する。
音声認識結果取得部604は、音声認識サーバ20に要求した録音データの音声認識結果をテキストとして受取る部分である。
オペレータ電話機50での通話は、IP網でのRTP(Real-time Transport Protocol)によるものであり、通話録音サーバ30に送られて、センタ管理サーバ10に転送され、一定時間ごとに分割された音声ファイル120として保存される。
また、IP−PBX80は、通話情報をセンタ管理サーバ10に送信する。
音声認識サーバ20は、要求解析制御部210、音声認識エンジン200、認識結果管理部220、制御DB設定部230からなり、音声認識制御のためのデータベースとして、音声認識制御DB300を保持している。
要求解析制御部210は、センタ管理サーバ10からの音声認識要求、監視PC60からモード条件の設定の要求、認識結果取得の要求を受けて、音声認識エンジン200、認識結果管理部220、制御DB設定部230に指示を与える部分である。音声認識エンジン200は、録音データを、設定された音響モデル、言語モデルに基づいて、その言葉の対応するテキストデータに変換する部分である。認識結果管理部220は、音声認識エンジン200が出力するテキストデータを認識結果ファイル140として格納し、アクセスを管理する部分である。また、監視PC60の認識結果取得部604からの要求により、認識結果ファイル140のデータを送信する機能も有する。
音声認識制御DB300には、音声認識エンジン200の音声認識処理を制御するためのテーブル類が格納される。音声認識制御DB300に格納されるテーブル類の詳細は後に説明する。
センタ管理サーバ10は、通話情報登録部101、音声認識制御部102の機能ブロックを有し、通話情報管理テーブル110、音声ファイル120、認識結果ファイル140を保持する。
通話情報登録部101は、IP−PBXから転送される通話情報を、通話録音サーバ30から転送される音声情報、音声認識サーバ20の音声認識エンジンで認識した認識結果情報を関連付けて、通話情報管理テーブル110に登録する。
音声認識制御部102は、監視PC60からの要求を受け、音声認識サーバ20に対して、通話の音声認識を指示する。
通話情報管理テーブル110は、通話とその音声情報、その音声を認識した認識結果に関する情報を格納するテーブルである。通話情報管理テーブル110の詳細については、後述する。
音声認識エンジン200は、通話管理テーブル100の情報と、音声ファイル120を読み出して、指定された通話の音声情報を認識して、テキスト化し、認識結果ファイル140に書き出す。
次に、図3を用いてコールセンタに設置されるサーバのハードウェア・ソフトウェア構成図である。
本実施形態でコールセンタに設置されるサーバ400は、マルチプロセッサ・マルチコアの並列アーキテクチャを有するプロセッサで、音声認識サーバ20の機能と、他の業務プログラムを実行するサーバの機能(ファイルサーバ、データベースサーバ、Webサーバなど)を含む場合について説明する。また、図3に示したサーバ400は、図1及び図2で説明したセンタ管理サーバ10、通話録音サーバ30の機能を提供するサーバであってもよい。
コールセンタに設置されるサーバ400のハードウェア構成は、図3に示されるようにCPU410、メインメモリ402、表示I/F401、入出力I/F403、ネットワークI/F405、補助記憶I/F404がバスにより接続されたものである。
CPU410は、サーバ400の各部を制御し、メインメモリ402に必要なプログラムをロードして実行する。特に、本実施形態のサーバ400は、複数のCPU410を有する対称型マルチプロセッシング(SMP:Symmetric Multiprocessing)アーキテクチャであり、メインメモリ402を共有している。また、CPU410は、複数のコア412を有し、コア412からCPU410内で高速にアクセスするキャシュメモリ413を有している。CPU410内では、OS(Operating System)から処理のスケジュール単位として、スレッドという制御単位で処理を割当てられて実行される。
メインメモリ402は、通常、RAMなどの揮発メモリで構成され、CPU410が実行するプログラム、参照するデータが記憶される。ネットワークI/F405は、ネットワーク7と接続するためのインタフェースである。表示I/F401は、LCD(Liquid Crystal Display)などの表示装置420を接続するためのインタフェースである。
入出力I/F403は、入出力装置を接続するためのインタフェースである。図3の例では、キーボード421とポインティングデバイスのマウス422が接続されている。
補助記憶I/F404は、HDD(Hard Disk Drive)430やSSD(Solid State Drive)などの補助記憶装置を接続するためのインタフェースである。特に、サーバでは、HDDをアレイ状に構成して、ディスクアレイを形成する場合もある。
HDD430は、大容量の記憶容量を有しており、本実施形態を実行するためのプログラムが格納されている。サーバ400は、OS440、音声認識サーバ制御プログラム432、音声認識エンジンプログラム434、コールセンタ業務プログラム436が格納されている。
OS440は、サーバ400のハードウェアリソース、ソフトウェアリソースを管理し、アプリケーションプログラムを実行する。特に、本実施形態では、処理をプロセスやスレッドという単位でスケジューリングする並列処理可能OSであるものとする。
音声認識サーバ制御プログラム432、音声認識エンジンプログラム434は、図2で示した音声認識サーバ20の機能として実行されるプログラムであり、音声認識サーバ制御プログラム432は、CPU410で実行されることにより、要求解析制御部210、認識結果管理部220、制御DB設定部230の機能を実現するプログラムであり、音声認識エンジンプログラム434は、音声認識エンジン200の機能を実現するプログラムである。
次に、図3を用いてサーバ400における並列処理とハードウェアリソースの消費の関係について説明する。
本実施形態の音声認識サーバは、その音声認識の仕方の違いにより、通常モードと高認識モードの二種のモードが存在する。これらのモードにおける音声認識の詳細については、後に詳述する。
通常モードは、音声認識サーバ20の音声認識エンジン200の処理負荷が比較的軽い動作モードであり、高認識モードは、通常モードと比較して、処理負荷が比較的重く、ハードウェアリソースを消費するが、音声認識の結果は、高精度で認識できるモードである。
通常モードの場合は、図4(a)に示されるように、一つのCPU410のコア412で、音声認識エンジン200の処理するスレッド(以下、「認識エンジンスレッド」という、図4も同じ)が、二つ同時に処理でき、他のコアは、他の業務アプリケーションプログラムによるスレッドを処理するようにスケジューリングできることになる。
一方、高認識モードの場合は、図4(b)に示されるように、一つのCPU410のコア412で、認識エンジンスレッドが、一つしか処理できず、二つのコア412が占有されて、他の業務アプリケーションプログラムによるスレッドは、スケジューリングされないようになる。
したがって、ハードウェアリソースの節減という面からみれば、通常モードで音声認識を行うことが好ましく、必要に応じて、高認識モードに切り換えることが望ましいことになる。
次に、図5を用いて音声認識エンジンの構成について説明する。
音声認識エンジン200は、音声データから言語の特徴に基づいて認識を行ないテキスト化するモジュールである。音声認識は、現在の一般的な技法としては、音声データから音声区間を検出し、音声スペクトルの計算などから特徴量を抽出する。そして、その特徴量から音素情報の計算と言語化を行うことにより音声として認識するものである。本実施形態の音声認識エンジン200は、図5に示されるように、音声区間検出部201、特徴量検出部202、音素情報計算部203、言語化部204、出力部205、モード管理部206、出力解析部207からなる。なお、モード管理部206、出力解析部207が、一般的な音声エンジンに対して付け加わっている本実施形態の特徴的な部分である。
音声区間検出部201は、音声データから音声区間を検出する部分である。音声区間検出部201は、雑音除去などを行なった後に、音量が小さくなった瞬間を音声の区切り目とみなし、その後、非同期に特徴量抽出部以下を開始する。
特徴量検出部202は、音声データから特徴量を検出する部分である。ここで、特徴量とは、音声データのどの波長がどのくらい含まれているかを表す量であり、例えば、音声スペクトル、音量、その差分などの量である。
音素情報計算部203は、音響モデル250を用いて、特徴量から音声区間の音声がどの音素(a, k, iなどの発音記号に相当)に該当するかを計算する部分である。音響モデル250は、どういう特徴量を持っていればどの音素に近いかを記録しているモデルである。
言語化部204は、音素と言語モデル260を用いて何を話していたかを確定させる部分である。言語モデル260とは、音声認識における言語処理において、文の品詞や統語構造、単語と単語、文書と文書などの関係性について定式化したモデルである。言語化部204では、言語化の候補の展開の仕方を通常モードと高認識モードで切り換える。言語化の候補の展開の詳細については、後に説明する。
出力部205は、音声認識の結果をテキスト化して出力する部分である。
モード管理部206は、音声制御DB300に格納された情報に基づいて、言語化部204に、通常モードと高認識モードの切り換えを指示する部分である。
出力解析部207は、出力部から出力される音声認識の結果を解析して、音声認識DB300に反映し、モード管理部206に対して通常モードと高認識モードの切り換えを指示する。
次に、図6ないし図9を用いて第一の実施形態の通話管理システムで使用されるデータ構造について説明する。
図6は、通話管理テーブル100の一例を示す図である。
図7は、モード制御テーブル301の一例を示す図である。
図8は、デフォルトモードテーブル302の一例を示す図である。
図9は、出力解析管理テーブル303の一例を示す図である。
図10は、オペレータNGワードリスト304の一例を示す図である。
図11は、カスタマーNGワードリスト305の一例を示す図である。
図12は、モード変更閾値テーブル306の一例を示す図である。
通話管理テーブル100は、センタ管理サーバ10において、通話情報、録音情報、認識結果テキストを関連付けるためのテーブルであり、図6に示されるように、通話識別ID100a、オペレータID100b、発番号100c、着番号100d、開始時刻100e、終了時刻100f、録音状態100g、音声ファイル100h、認識結果100iの各フィールドからなる。
通話識別ID100aは、カスタマーとオペレータ間の通話の識別子を格納するフィールドである。オペレータID100bは、カスタマーに対応したオペレータの識別子を格納するフィールドである。発番号100c、着番号100dは、それぞれ通話の発信番号、着信番号を格納するフィールドである。開始時刻100e、終了時刻100fは、録音状態100gは、カレントの音声の録音状態を格納するフィールドである。音声ファイル100hは、録音した音声ファイルのセンタ管理サーバ10におけるパスを格納するフィールドである。音声ファイルは、例えば、wav形式のファイルで格納される。認識結果100iは、音声認識したテキストファイルのセンタ管理サーバ10におけるパスを格納するフィールドである。音声認識したテキストファイルは、例えば、txt形式のファイルで格納される。
以下のモード制御テーブル301、デフォルトモードテーブル302、出力解析管理テーブル303、オペレータNGワードリスト304、カスタマーNGワードリスト305、モード変更閾値テーブル306は、音声認識制御DB300に格納されるテーブルである。
本実施形態でのNGワードは、オペレータNGワードとカスタマーNGワードがあり、オペレータの発話に表れると要監視であるとされるワードを、オペレータNGとし、カスタマーの発話に表れると要監視であるされるワードを、カスタマーNGワードとする。オペレータNGワード、カスタマーNGワードの具体例は、後述する。
モード制御テーブル301は、音声認識エンジンにおける音声認識のモードを制御するためのテーブルであり、図7に示されるように、通話識別ID301a、オペレータID301b、現モード301cの各フィールドからなる。
通話識別ID301aは、音声認識しようとしている通話の識別IDを格納するフィールドである。オペレータID301bは、音声認識しようとしている通話に係るオペレータの識別子を格納するフィールドである。現モード301cは、音声認識エンジンにおけるカレントの音声認識のモードを格納するフィールドである。
デフォルトモードテーブル302は、オペレータに対する音声認識エンジンにおける音声認識のデフォルトのモードを格納するためのテーブルであり、図8に示されるように、オペレータID302a、デフォルトモード302bの各フィールドからなる。
オペレータID302aは、デフォルトモードを設定するオペレータの識別子を格納するフィールドである。デフォルトモード302bは、オペレータID302aに対して、音声認識エンジンにおけるデフォルトの音声認識のモードを格納するフィールドである。
出力解析管理テーブル303は、音声認識エンジン200の出力解析部207が、音声認識のテキストを解析した結果を格納するテーブルであり、図9に示されるように、通話識別ID303a、オペレータID303b、累積オペレータNGワード回数303c、累積カスタマーNGワード回数303d、累積かぶり回数303e、累積音量激変回数303fの各フィールドからなる。
通話識別ID303aは、カスタマーとオペレータ間の通話の識別子を格納するフィールドである。オペレータID303bは、カスタマーに対応したオペレータの識別子を格納するフィールドである。累積オペレータNGワード回数303cは、後述の累積オペレータNGリスト304に登録されたオペレータNGワードのその通話における累積回数である。累積カスタマーNGワード回数303dは、後述の累積カスタマーNGリスト305に登録されたカスタマーNGワードのその通話における累積回数である。累積かぶり回数303eは、その通話において、オペレータレータとカスタマーの会話の発声が所定の時間より重なったと判定された累積回数である。累積音量激変回数303fは、その通話において、オペレータレータとカスタマーの会話の発声が所定の音量より大きくなったと判定された累積回数である。
累積オペレータNGワード回数303c、累積カスタマーNGワード回数303d、累積かぶり回数303e、累積音量激変回数303fは、全て値が大きいほど、その通話が要監視になっていくことを意味する。
オペレータNGワードリスト304は、このワードがオペレータの発話に含まれているときに、監視が必要であるとみなすワード(オペレータNGワード)のリストであり、例えば、図10に示されるように、「申し訳ありません」「こまります」「できません」などのワードが格納される。
カスタマーNGワードリスト305は、このワードがカスタマーの発話に含まれているときに、監視が必要であるとみなすワード(カスタマーNGワード)のリストであり、例えば、図11に示されるように、「分からない」「ふざけるな」「意味不明」などのワードが格納される。
モード変更閾値テーブル306は、音声認識エンジン200のモード管理部206が、図9の出力解析管理テーブルの値がこの値を超えているときに、音声認識モードを通常モードから高精度モードに切り換えることを、言語化部204に指示するためのテーブルであり、図12に示されるように、オペレータNGワード回数閾値306a、カスタマーNGワード回数閾値306b、かぶり回数閾値306e、音量激変回数閾値306fの各フィールドよりなる。
オペレータNGワード回数閾値306a、カスタマーNGワード回数閾値306b、かぶり回数閾値306e、音量激変回数閾値306fは、それぞれ、累積カスタマーNGワード回数303d、累積かぶり回数303e、累積音量激変回数303fが、この値を超えたときに、音声認識エンジン200の音声認識モードを通常モードから高精度モードに切り換えることを意味している。
次に、図13ないし図19を用いて第一の実施形態に係るコールセンタにおける通話管理システムの処理について説明する。
先ず、図13を用いてコールセンタにおける通話管理システムの一般的な処理を説明する。
図13は、第一の実施形態におけるコールセンタにおける通話管理システムの処理を示すシーケンス図である。
先ず、通話録音サーバ30が通話開始を検知する(S100)。次に、通話録音サーバ30は、センタ管理サーバ10に通話開始を通知する(A101)。センタ管理サーバ10は、通話に通話識別IDを付与し、通話管理テーブル100に登録する(S101)。次に、センタ管理サーバ10は、通話IDとオペレータIDを渡して、音声認識サーバ20に通話開始を通知する(A102)。音声認識サーバ20の音声認識エンジン200のモード管理部206は、渡された通話IDとオペレータIDに基づき、モード制御テーブル301に音声認識の現モードを設定する(S102)。また、音声認識サーバ20は、データを受信するための情報(ポート番号、装置IDなど)を伝達する(S102、A103、A104)。デフォルトでは、図8に示したデフォルトモードテーブル302を参照して、音声認識のモードが設定される。次に、通話録音サーバ30は、一定秒数ごとに、音声認識サーバ20からの情報に基づいて、録音データを音声認識サーバ20に伝達する(S103、A105)。次に、音声認識サーバ20は、認識結果が出るごとに、センタ管理サーバ10に認識結果を送付する(S104、A106)。次に、通話録音サーバ30は、通話終了を検知する(S106)。次に、通話録音サーバ30は、通話終了をセンタ管理サーバ10に通知する(A107)。最後に、センタ管理サーバ10は、音声認識サーバ20に通話終了を通知する(S107、A108)。
次に、図14ないし図19を用いて音声認識エンジンにおける音声認識処理の詳細と認識モードの切り換えについて説明する。
図14は、一般的な音声認識エンジンにおける音声認識処理を示すシーケンス図である。
図15A、図15Bは、第一の実施形態における音声認識エンジンにおける音声認識処理を示すシーケンス図である。
図16は、言語化部における候補を、通常モードと高認識モードの場合で対比して示した図である。
図17は、音声認識エンジンにおける音声認識のモードを切り換えるときの処理を示すシーケンス図である。
図18Aは、デフォルトモード設定を説明する模式図である。
図18Bは、第一の実施形態におけるモード設定を説明する模式図である。
図19は、音声認識エンジンの出力解析部の認識結果を解析して認識モードを判定する処理を示すフローチャートである。
先ず、図14を用いて一般的な音声認識エンジンにおける音声認識処理について説明する。
音声認識処理は、既に説明したように、音声データから音声区間を検出し、音声スペクトルの計算などから特徴量を抽出し、その特徴量から音素情報の計算と言語化を行うことにより音声として認識するものである。
先ず、音声区間検出部201は、音声データをバッファリングして、音声区間を検出する(S10、A01)。この処理では、音声区間検出部201は、雑音除去などを行なった後、音量が小さくなった瞬間を音声の区切り目とみなす。その後、非同期に特徴量抽出部以下の処理を開始する(S11)。特徴量検出部202は、認識開始の指示をうけ(A02)、音声データから特徴量を検出する(S12、A03)。次に、音素情報計算部203は、特徴量検出部202から認識の指示を受け(A04)、音響モデル250を用いて特徴量から音声区間の音声がどの音素に該当するかを計算する(S13、A05)。次に、言語化部204は、音素情報計算部203からから認識の指示を受け(A06)、音素情報計算部203で計算された音素と言語モデル260を用いて何を話していたかを確定させ(言語化し)(S14、A07)、出力部にテキストとして出力の指示をし(A08)、そして、出力部205は、音声認識エンジン200の外部に、音声認識したテキストを出力する(S15、A09)。
次に、図16、図18A、図18Bを用いて音声認識のモードについて説明する。
上記で説明した一般的な音声認識の技法においては、言語化部204は、図16に示されるように、候補となる文を図3に示すメインメモリ402上に展開して、その内に一つを選んで確定させ、音声区間が終わると、そのときの一番有力な候補の文を出力部205に対して出力依頼をする(図13のA08)。
ところが、音声を認識するには、言語モデルに文章を大量(例:350MBのデータベース)に登録し、候補を多数(例:2048件)覚えておく必要がある。したがって、候補の展開時には、メインメモリ402のエリアが大量に必要となり(例:1認識処理あたり500MB)、かつ、そのためのCPU負荷も過大なものになる。したがって、オペレータが多数いるコールセンタでは、その数に対応したCPUの能力と、広大なメインメモリの容量が必要となる。図3、図4の例では、認識エンジンスレッドを処理するためのCPU410のコア412と、十分な容量のメインメモリ402が必要となる。CPU410のコア412の能力が不足するとき、また、認識エンジンスレッドを処理するCPU410のコア412が少ないときには、プロセスの待ち行列ができ、リアルタイムに音声認識ができないという事態になる。また、メインメモリ402のエリアが不足するときには、メインメモリ402とHDD430との間でスワッピングが生じて、処理能力が大幅に低下する。
しかしながら、コールセンタの監視者が、リアルタイムに監視したい通話は、カスタマーとトラブルが起きている通話、オペレータの対応能力が不足する場合の通話などであり、すべての通話を監視したいわけではない。
本実施形態の音声認識エンジン200は、少なくとも二つの音声認識のモードを有する。すなわち、音声認識エンジン200を実行するためのハードウェアリソース消費量が多く、認識率が高いモード(「高認識モード」とよぶことにする)と、ハードウェアリソース消費量が少なく、認識率が低いモード(「通常モード」とよぶことにする)を有するものとする。通常モードで音声認識エンジン200を実行するためには、(1)言語モデル260に登録する文の量を少なくする(2)一時的に覚えておく、候補の数を少なくする、の二要件を満たすようにする。
例えば、通常モードの場合には、図16(a)に示されるように、極端にすると、候補文は、ほぼ全てひらがなになり、候補も少なくなる。高認識モードの場合には、図16(b)に示されるように、候補が多くなり、音声認識の精度は格段に向上する。
そして、出力解析部207が、通話になんらかの異常を検出したとき、例えば、カスタマーNGワード、オペレータNGワードを、一定数以上検出したときに、通常モードからから高認識モードに切り換える。すなわち、カスタマーが満足していない場合や、オペレータの対応能力を超える場合には、NGワードが発せられたり(カスタマーからは、「まだ?」「全然わからないよ」、オペレータからは、「申し訳ございません」「大変お待たせしております」など)、カスタマーの通話の音量が上がったり、会話のかぶりが多くなったりする傾向があることに注目して、通常モードからから高認識モードに切り換えるトリガーにする。
先ず、センタの管理者は、図18Aに示されるように、オペレータの習熟度が低い、トラブルが多いなど、予め、その通話が高認識モードでの音声認識が必要と管理者が判断した場合には、デフォルトモードとして、高認識モードを設定することができる(図8のデフォルトモードテーブル302)。音声認識サーバ20は、センタ管理サーバ10から通話の音声認識を指示されたときに、通話ID、オペレータIDを受取り、デフォルトモードテーブル302を参照し、それらの値に基づいて音声認識サーバ20の音声認識エンジンのモード管理部が、モード制御テーブル301のモードを設定する。
また、図18Bに示されるように、予め、オペレータNGワードリスト(図10のオペレータNGワードリスト304)、カスタマーNGワードリスト(図11のカスタマーNGワードリスト305)、モード変更閾値(図12のモード変更閾値テーブル306)を設定しておく。
次に、図15Aないし図19を用いて音声認識のモードの設定と切り換えの処理について説明する。
図13に示した一般的な音声認識エンジンにおける音声認識処理の場合のS10〜S13、A01〜A06までは同様である。以下、言語化部204以降の処理について説明する。
図15Aに示されるように、言語化部204は、音素情報計算部203から認識の指示を受け(A06)、モード管理部206にモード取得要求を行ない(図15BのS14、A20)、モード管理部206は、図7のモード制御テーブル301を参照し、その通話の現在のモードを返答する(S20、A21)。言語化部204では、現モードにしたがって、モードに応じた言語化の処理を行う(A22)。次に、言語化部204から出力部205に対して、出力の指示をする(A23)。出力部205では、出力解析部207に、認識したテキストの解析を依頼する(A24)。出力解析部207は、認識したテキストの解析処理をする(S22、A25)。具体的には、そのテキストからオペレータNGワード、カスタマーNGワードがあるときは、抜き出し、図9の出力解析管理テーブル303cの累積オペレータNGワード回数303c、累積カスタマーNGワード回数303dに、それぞれ付け加える。また、通話内容のかぶりがあるとき、音量の激変が見られるときに、累積かぶり回数303e、累積音量激変回数303fに、それぞれ付け加える。
そして、出力解析部207は、各々の値がモード変更閾値テーブル306の値を超えるときには、モード設定の指示を行う(S22、A26)。モード管理部206は、その指示を受けて、モード制御テーブル201を書き換えることにより、モード設定を行う(S23、A27)。そして、音声認識したテキストを出力する(A30)。
次に、図17を用いて音声認識エンジンの音声認識のモードが、通常モードから高認識モードに変わるときの処理について、より具体的に説明する。
言語化部206に、認識開始の指示が与えられるまでは、図14のA06、図15AのA06までの処理と同様である。
図17に示されるように、言語化部204は、音素情報計算部203から認識の指示を受け、モード管理部206にモード取得要求を行う(S40、A40)。モード管理部206は、図7のモード制御テーブル301を参照し、その通話の現在のモードである「通常モード」を返答する(S40、A41)。言語化部204では、通常モードに応じた言語化の処理を行う(A42)。次に、言語化部204から出力部205に対して、出力の指示をする(A43)。出力部205は、出力解析部207に、認識したテキストの解析を依頼する(S42、A44)。出力解析部207は、認識したテキストの解析処理をする(S43、A45)。ここで、解析の結果、音声認識のモードが変更する条件が発声してときには、出力解析部207は、モード管理部206に、「高認識モード」に設定する指示を行う(A46)。モード管理部206は、その通話のモード管理テーブル301の現モード301cに「高認識モード」を設定する(S44、A47)。そして、出力部205は、音声認識したテキストを出力する。
それ以降で、言語化部204が、音素情報計算部203から認識の指示を受けたときに、モード管理部206に対してモード取得指示をした場合には(S50、A60)、モード管理部206は、その通話の現在のモードが「高認識モード」であることを返答し(S51、A61)、モード管理部206は、高認識モードで言語化の処理を行うことになる。
次に、図19を用いて出力解析部の認識結果を解析して認識モードを判定する処理の詳細について説明する。
出力解析部207は、音声認識の結果のテキストにおいて、オペレータNGワードリスト304に登録されたワードが表れる回数を検索する(S200)。
次に、出力解析部207は、音声認識の結果のテキストにおいて、カスタマーNGワードリスト305に登録されたワードが表れる回数を検索する(S201)。
次に、出力解析部207は、音声認識の結果において、通話のかぶりが表れる回数を検索する(S202)。
次に、出力解析部207は、音声認識の結果において、音量が激変した回数を検索する(S203)。
そして、S200〜S203で検索した回数を、出力解析管理テーブル303のそれぞれ該当するフィールドに登録する(S204)。
なお、S200〜S203は、順不同であり、また、その処理が終わったときに、逐次、出力解析管理テーブル303に登録してもよい。
次に、各フィールドの回数が、該当するモード変更閾値テーブルのフィールドと比較し、どれかその閾値を超えたか否かを判定する(S205)。
S205の判定で、閾値を超えたものがある場合には、出力解析部207は、モード管理部206に対して、その通話の音声認識のモードを、高認識モードに変更するように指示する(S206)。
ただし、モード認識の変更になる要件のうち、その内二つが閾値を超えたときに、高認識モードに変更する、また、全て閾値を超えたときに、高認識モードに変更するなど、閾値の値と同様、システム要件に合わせて、自由に設定することも可能である。
〔実施形態2〕
以下、本発明に係る第二の実施形態を、図20及び図21を用いて説明する。
図20は、第二の実施形態に係る通話管理システムの機能関連図である。
図21は、第二の実施形態におけるモード設定を説明する模式図である。
本実施形態は、第一の実施形態に加えて、通話の途中で、オペレータ又は監視者がモードを切り換えることができるようにしたものである。例えば、以下の場合が想定される。
・オペレータ自ら監視者へ聞かせたい場合(ヘルプを呼びたい場合)
・一時的に、監視者があるオペレータに注目する場合
・監視者が通話内容をチェックしたが問題ないので、「高認識モード」から「通常モード」に切り換える
本実施形態の通話管理システムは、図20に示されるように、第一の実施形態の図2と比較して、オペレータPC70と、監視PC60に現モード設定部605が付け加わっている。
図21に示されように、オペレータPC70を操作するオペレータ、監視PC60を操作する監視者は、現モードを設定するときには、音声認識サーバ20の要求解析制御部210に、その通話IDを特定して、その認識モードを送信する。要求解析制御部210は、音声認識エンジン200のモード管理部206に対して、その情報を送信し、モード管理部206は、それを受けて、モード制御テーブル301の対応する現モード301cの値を設定するように指示する。
〔実施形態3〕
以下、本発明に係る第三の実施形態を、図22を用いて説明する。
図22は、要注意電話番号テーブルの一例を示す図である。
本実施形態では、過去に、その電話番号から発信された通話が、「高認識モード」に変更された電話番号と、その累計回数を、図22に示されるように、要注意電話番号テーブル307の電話番号307a、累計高認識モード回数307bにそれぞれを記録しておく。通話開始時、これらの電話番号からかかってきた場合、デフォルトモードによらず、音声認識エンジン200のモード管理部206は、それを受けて、モード制御テーブル301の対応する現モード301cの値を「高認識モード」に設定する(図13のS102)。
これにより、そのカスタマーの過去の履歴に応じた適切な音声認識のモードを選択することが可能になる。
6…公衆網
7…ネットワーク
10…センタ管理サーバ、
20…音声認識サーバ
200…音声認識エンジン
210…要求解析制御部
220…認識結果管理部
230…制御DB設定部
30…通話録音サーバ
50…オペレータ電話機
60…監視PC
70…オペレータPC
80…IP−PBX
100…通話管理テーブル
120…音声ファイル
140…認識結果ファイル
300…音声認識制御DB

Claims (8)

  1. 外部回線からの呼にかかる通話を録音して、音声認識して通話をテキスト化して表示する通話管理システムであって、
    通話データの録音データを音声認識して、テキストデータを出力する音声認識サーバを備え、
    前記音声認識サーバは、
    音声データを音声認識して、テキスト化する音声認識エンジンと、
    通話ごとに音声認識のモードを保持するモード制御テーブルとを有し、
    前記音声認識エンジンは、
    言語化部に対して、音声認識のモードを指示するモード管理部と、
    音声認識によりテキスト化された認識結果データを解析する出力解析部とを有し、
    前記出力解析部は、音声認識によりテキスト化された認識結果データを解析した結果にしたがって、前記モード管理部に音声認識のモードを指示し、
    前記モード管理部は、前記出力解析部の指示にしたがい前記通話ごとに前記モード制御テーブルに保持された音声認識のモードを書き換え、通話ごとに前記モード制御テーブルに保持された音声認識のモードにしたがって、前記言語化部に音声認識のモードを指示し、
    前記音声認識の第一のモードでは、前記言語化部は、参照するモデルの言語モデルの数を少なくし、中間結果として展開する候補の数を少なくし、
    前記音声認識の第二のモードでは、前記言語化部は、参照するモデルの言語モデルの数を多くし、中間結果として展開する候補の数を多くし、
    前記音声認識サーバは、
    通話に出現するNGワードリストと、
    NGワードリストの出現の閾値を保持するモード変更閾値テーブルと、
    通話ごとに、NGワードの累積出現回数を保持する出力解析管理テーブルとを有し、
    前記出力解析部は、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する前記NGワードリストに記録されたNGワードが出現した累計出現回数を記録し
    前記出力解析部は、前記出力解析管理テーブルを参照し、通話ごとに前記NGワードの累積出現回数が、前記モード変更閾値テーブルのNGワードリストの出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示することを特徴とすることを特徴とする通話管理システム。
  2. 前記音声認識サーバは、
    通話のかぶり出現回数、通話の音量激変回数の出現の閾値を保持するモード変更閾値テーブルと、
    通話ごとに、通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を保持する出力解析管理テーブルとを有し、
    前記出力解析部は、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を記録し
    前記出力解析部は、前記出力解析管理テーブルを参照し、通話ごとに前記通話のかぶりの累積出現回数、前記通話の音量激変の累積出力回数が、それぞれ、前記モード変更閾値テーブルの通話のかぶり出現回数、通話の音量激変回数の出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示することを特徴とする請求項1記載の通話管理システム。
  3. 前記音声認識サーバは、
    さらに、オペレータごとにデフォルトの音声認識のモードを保持するデフォルトモードテーブルを有し、
    前記モード制御テーブルは、通話ごとにオペレータを識別するオペレータIDを保持し、
    前記通話ごとに、通話のオペレータのオペレータIDがデフォルトモードテーブルに登録されているときに、前記モード管理部は、音声認識の最初に、デフォルトモードテーブルのデフォルトの音声認識のモードを、前記モード制御テーブルの音声認識のモードに書き換えることを特徴とする請求項1記載の通話管理システム。
  4. 監視PC又はオペレータPCを有し、
    前記監視PC又はオペレータPCから、前記音声認識サーバに、音声認識のモードを設定する手段を有し、
    前記音声認識サーバの前記音声認識エンジンのモード管理部は、前記モード制御テーブルの音声認識のモードを、前記監視PC又はオペレータPCから設定された音声認識エンジンのモードに書き換えることを特徴とする請求項1記載の通話管理システム。
  5. 前記音声認識サーバは、
    さらに、通話の電話番号ごとに、過去、第二の認識モードにした累積回数を保持する要注意番号テーブルを保持し、
    前記音声認識サーバの前記音声認識エンジンのモード管理部は、音声認識にかかる通話の発信番号が、前記要注意番号テーブルの通話の電話番号であり、前記第二の認識モードにした累積回数が所定の閾値を超えたときには、前記モード制御テーブルの音声認識のモードを第二の認識モードに書き換えることを特徴とする請求項1記載の通話管理システム。
  6. さらに、管理サーバを有し、
    前記管理サーバは、通話ID、オペレータID、録音した音声ファイルの関係を保持する通話管理テーブルを有し、
    前記通話管理サーバは、前記通話ID、前記オペレータIDをパラメタとして、前記音声認識サーバに、通話に関する音声認識の指示を行うことを特徴とする請求項1記載の通話管理システム。
  7. 外部回線からの呼にかかる通話を録音して、音声認識して通話をテキスト化して表示する通話管理システムの音声認識方法であって、
    前記通話管理システムは、通話データの録音データを音声認識して、テキストデータを出力する音声認識サーバを備え、
    前記音声認識サーバは、
    音声データを音声認識して、テキスト化する音声認識エンジンと、
    通話ごとに音声認識のモードを保持するモード制御テーブルとを有し、
    前記音声認識エンジンは、
    言語化部に対して、音声認識のモードを指示するモード管理部と、
    音声認識によりテキスト化された認識結果データを解析する出力解析部とを有し、
    前記出力解析部が、音声認識によりテキスト化された認識結果データを解析した結果にしたがって、前記モード管理部に音声認識のモードを指示するステップと、
    前記モード管理部が、前記出力解析部の指示にしたがい前記通話ごとに前記モード制御テーブルに保持された音声認識のモードを書き換えるステップと、
    前記モード管理部が、通話ごとに前記モード制御テーブルに保持された音声認識のモードにしたがって、前記言語化部に音声認識のモードを指示し、
    前記音声認識の第一のモードでは、前記言語化部は、参照するモデルの言語モデルの数を少なくし、中間結果として展開する候補の数を少なくし、
    前記音声認識の第二のモードでは、前記言語化部は、参照するモデルの言語モデルの数を多くし、中間結果として展開する候補の数を多し、
    前記音声認識サーバは、
    通話に出現するNGワードリストと、
    NGワードリストの出現の閾値を保持するモード変更閾値テーブルと、
    通話ごとに、NGワードの累積出現回数を保持する出力解析管理テーブルとを有し、
    さらに、前記出力解析部が、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する前記NGワードリストに記録されたNGワードが出現した累計出現回数を記録するステップと
    前記出力解析部は、前記出力解析管理テーブルを参照し、通話ごとに前記NGワードの累積出現回数が、前記モード変更閾値テーブルのNGワードリストの出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示するステップとを有することを特徴とすることを特徴とする通話管理システムの音声制御方法。
  8. 前記音声認識サーバは、
    通話のかぶり出現回数、通話の音量激変回数の出現の閾値を保持するモード変更閾値テーブルと、
    通話ごとに、通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を保持する出力解析管理テーブルとを有し、
    前記出力解析部が、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を記録するステップと
    前記出力解析部が、前記出力解析管理テーブルを参照し、通話ごとに前記通話のかぶりの累積出現回数、前記通話の音量激変の累積出力回数が、それぞれ、前記モード変更閾値テーブルの通話のかぶり出現回数、通話の音量激変回数の出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示するステップとを有することを特徴とする請求項7記載の通話管理システムの音声制御方法。
JP2016135812A 2016-07-08 2016-07-08 通話管理システム及びその音声認識制御方法 Active JP6767796B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016135812A JP6767796B2 (ja) 2016-07-08 2016-07-08 通話管理システム及びその音声認識制御方法
US15/617,188 US10170120B2 (en) 2016-07-08 2017-06-08 Call management system and its speech recognition control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016135812A JP6767796B2 (ja) 2016-07-08 2016-07-08 通話管理システム及びその音声認識制御方法

Publications (2)

Publication Number Publication Date
JP2018005167A JP2018005167A (ja) 2018-01-11
JP6767796B2 true JP6767796B2 (ja) 2020-10-14

Family

ID=60910529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016135812A Active JP6767796B2 (ja) 2016-07-08 2016-07-08 通話管理システム及びその音声認識制御方法

Country Status (2)

Country Link
US (1) US10170120B2 (ja)
JP (1) JP6767796B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657956B2 (en) * 2016-06-23 2020-05-19 Sony Corporation Information processing device and information processing method
ES2877659T3 (es) 2017-12-01 2021-11-17 Abbvie Inc Agonista del receptor de glucocorticoides y sus inmunoconjugados
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质
JP6567729B1 (ja) * 2018-05-28 2019-08-28 株式会社リクルートマネジメントソリューションズ コールセンタ装置、特定方法及びプログラム
JP6933397B2 (ja) * 2019-11-12 2021-09-08 ティ・アイ・エル株式会社 音声認識装置、管理システム、管理プログラム及び音声認識方法
CN111107230A (zh) * 2019-12-05 2020-05-05 北京高阳捷迅信息技术有限公司 用于智能外呼的数据处理方法及装置
CN113990298B (zh) * 2021-12-24 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6724887B1 (en) * 2000-01-24 2004-04-20 Verint Systems, Inc. Method and system for analyzing customer communications with a contact center
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
WO2004012431A1 (en) * 2002-07-29 2004-02-05 British Telecommunications Public Limited Company Improvements in or relating to information provision for call centres
US7752043B2 (en) * 2006-09-29 2010-07-06 Verint Americas Inc. Multi-pass speech analytics
US8463606B2 (en) * 2009-07-13 2013-06-11 Genesys Telecommunications Laboratories, Inc. System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time
JP5434731B2 (ja) * 2010-03-24 2014-03-05 トヨタ自動車株式会社 音声認識システム及び自動検索システム
JP2014178381A (ja) * 2013-03-13 2014-09-25 Toshiba Corp 音声認識装置、音声認識システムおよび音声認識方法
JP5860085B2 (ja) 2014-03-17 2016-02-16 株式会社アドバンスト・メディア 通話録音サーバ、通話データ管理システム、および通話データ管理方法
JP6669076B2 (ja) * 2014-11-04 2020-03-18 ソニー株式会社 通信システム、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US10170120B2 (en) 2019-01-01
US20180012600A1 (en) 2018-01-11
JP2018005167A (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
JP6767796B2 (ja) 通話管理システム及びその音声認識制御方法
US11301908B2 (en) System and method for providing contextual summaries in interaction transfer
US10235990B2 (en) System and method for cognitive intervention on human interactions
US20170316438A1 (en) Customer experience analytics
US20210157989A1 (en) Systems and methods for dialog management
US8537979B1 (en) Voice response system with live agent assisted information selection and machine playback
US10986232B2 (en) Systems and methods for sizing modular routing applications
JP2005027283A (ja) 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送
US11734648B2 (en) Systems and methods relating to emotion-based action recommendations
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
JP2024073501A (ja) キュー内で待機する呼に関する最適化
WO2023014791A1 (en) Systems and methods relating to providing chat services to customers
US10373515B2 (en) System and method for cognitive intervention on human interactions
US11316982B2 (en) Call transfer support system
US20230308544A1 (en) Digital twin simulation of interactive voice response system call
US20220294903A1 (en) Virtual private agent for machine-based interactions with a contact center
US20230059979A1 (en) Artificial Intelligence Based Smart Device for Contact Centers Solutions
JP2002297646A (ja) サービスシステム、方法及びプログラム
CN115065759A (zh) 外呼话术调整方法、装置、存储介质及计算机设备
CN115358776A (zh) 外呼话术调整方法、装置、存储介质及计算机设备
KR20090103854A (ko) 인입콜 분석을 통한 콜센터 운영 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190530

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200918

R150 Certificate of patent or registration of utility model

Ref document number: 6767796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250