JP6025785B2 - Automatic speech recognition proxy system for natural language understanding - Google Patents

Automatic speech recognition proxy system for natural language understanding Download PDF


Publication number
JP6025785B2 JP2014140729A JP2014140729A JP6025785B2 JP 6025785 B2 JP6025785 B2 JP 6025785B2 JP 2014140729 A JP2014140729 A JP 2014140729A JP 2014140729 A JP2014140729 A JP 2014140729A JP 6025785 B2 JP6025785 B2 JP 6025785B2
Prior art keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Application number
Other languages
Japanese (ja)
Other versions
JP2015018238A (en
JP2015018238A5 (en
イエラカリス ヨーヨス
イエラカリス ヨーヨス
ビー.カルス アルウィン
ビー.カルス アルウィン
ラプシーナ ラリッサ
ラプシーナ ラリッサ
Original Assignee
インタラクションズ リミテッド ライアビリティ カンパニー
インタラクションズ リミテッド ライアビリティ カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US13/936,440 priority Critical patent/US9245525B2/en
Priority to US13/936,440 priority
Application filed by インタラクションズ リミテッド ライアビリティ カンパニー, インタラクションズ リミテッド ライアビリティ カンパニー filed Critical インタラクションズ リミテッド ライアビリティ カンパニー
Publication of JP2015018238A publication Critical patent/JP2015018238A/en
Publication of JP2015018238A5 publication Critical patent/JP2015018238A5/ja
Application granted granted Critical
Publication of JP6025785B2 publication Critical patent/JP6025785B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical




本発明は、対話式応答通信システムの分野に関し、より詳細には、発話を自動音声認識(ASR)プロセッサ、人間音声認識(HSR)リソース、またはASR機構とHSR機構の両方に、選択的にルーティングする対話式応答通信システムに関する。 The present invention relates to the field of interactive response communication systems, and more particularly, an automatic speech recognition and speech (ASR) processor, for both human speech recognition (HSR) resources or ASR system and HSR mechanism, selectively routing on the interactive response communication system.

関連出願 本出願は、2011年1月5日に出願された「Automated Speech Recognition System for Natural Language Understanding」という名称の米国特許出願第12/985,174号明細書の一部継続出願である、2011年3月24日に出願された「Automated Speech Recognition Proxy System For Natural Language Understanding」という名称の、本願の所有者が所有する同時係属の米国特許出願第13/070,865号明細書(現米国特許第8,484,031号明細書)の一部継続出願であり、この出願に対して米国特許法第120条に基づき優先権を主張する。 RELATED APPLICATIONS This application is a continuation-in-part filed on January 5, 2011 of the "Automated Speech Recognition System for Natural Language Understanding" that the name of US patent application Ser. No. 12 / 985,174 Pat, 2011 3 filed in month 24, entitled "Automated Speech Recognition Proxy System for Natural Language Understanding", of co-pending owner of the present application owned US patent application Ser. No. 13 / 070,865 Pat (now US Patent No. 8,484,031 No. writing) a continuation-in-part application of and claims priority on U.S. Patent Act Article 120 for this application. 上記で参照した出願の内容は、本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。 The contents of the application referenced above, as if fully set forth herein, are incorporated herein by reference.

多くの会社は、電子的手段(最も一般的には、電話、Eメールおよびオンラインテキストチャット)によって顧客と対話する。 Many of the company, (most commonly, telephone, E-mail and online text chat) electronic means to interact with by the customer. このような電子システムは、必要な顧客サービスエージェントまたはサポートエージェントの数を制限することにより、会社にとって多くの金銭を節約する。 Such an electronic system, by limiting the number of required customer service agent or support agent, save a lot of money for the company. しかし、これらの電子システムが提供する顧客体験は一般に、満足には及ばないものである。 However, customer experience that these electronic systems is to provide generally, are those that do not extend to satisfaction. 顧客体験は、単純なトランザクションの場合には容認できることもあるが、顧客がコンピュータに話しかけることまたはコンピュータと対話することに熟達していない場合は、辻褄が合わないかまたは全くもどかしいものであることが多い。 Customer experience is, in the case of a simple transaction is sometimes acceptable, but if the customer is not proficient in to interact with it or the computer talk to the computer, it is one or no frustrating not fit make sense many.

このような対話式応答システムは、当技術分野で周知である。 Such interactive response systems are well known in the art. 例えば、対話式音声応答(IVR)システムを使用して電話を介して顧客サービスを提供することは、このようなシステムの1つである。 For example, providing customer service via a phone using interactive voice response (IVR) system is one such system. IVR技術を利用した顧客サービスシステムの例が特許文献1に記載されている。 Examples of customer service system using IVR technology is described in Patent Document 1. IVRシステムは通常、一連の録音済みフレーズを使用して顧客と通信し、いくつかの口頭入力およびタッチトーン信号に応答し、また、電話をルーティングまたは転送することができる。 IVR systems usually communicate with the customer using a series of prerecorded phrases in response to a number of oral input and touch-tone signals, also can be routed or forwarded calls. このようなIVRシステムの欠点は、これらが通常は「メニュー」構造を中心に構築されていることであり、この構造は、一度にわずかな有効オプションしか発信者に提示せず、また、発信者からの狭い範囲の応答を必要とする。 The disadvantage of this kind of IVR systems is that they usually have been built around the "menu" structure, this structure is, only not presented to the caller only valid option at a time, also, the caller It requires a narrow range response from.

これらのIVRシステムの多くは今や、音声認識技術を組み込んでいる。 Many of these IVR systems now incorporate speech recognition technology. 音声認識技術を組み込んだシステムの例が特許文献2に記載されている。 Examples of a system incorporating the speech recognition technique is described in Patent Document 2. IVRシステムによって使用される音声認識技術の頑強性は様々だが、これらが聞こうとする、かつ理解できる応答は、所定範囲の応答であることが多く、このことは、エンドユーザが日常語でシステムと対話する能力を制限する。 But different in robustness of speech recognition technology used by the IVR system, the system they are to listen and respond understandable is often a response within a predetermined range, this means that the end user in everyday language to limit the ability to interact with. 従って、発信者はしばしば、「コンピュータに話しかけているかのように」システムに話しかけることを余儀なくされているように感じることになる。 Therefore, the caller often, so that you feel like being forced to talk to, "as if talking to a computer" system. さらに、音声認識を利用するシステムと対話しているときでも、顧客入力はしばしば認識されないかまたは間違って決定され、それにより顧客は、できるだけ早く人間の顧客サービスエージェントと接触することを求める。 Furthermore, even when interacting with systems utilizing speech recognition, customer input is often determined or incorrectly not recognized, whereby the customer seeks to contact with as soon as possible human customer service agents.

より入り組んだ顧客サービス要求のために、人間の顧客サービスエージェントが使用され続けている。 For customer service request that more convoluted, human customer service agents continue to be used. これらのエージェントは、顧客に電話で話しかけ、顧客のEメールに応答し、および顧客とオンラインでチャットすることができる。 These agents, talking on the phone to the customer, it is possible to respond to the E-mail of the customer, and to chat with customers and online. エージェントは通常、顧客の質問に答えるか、または顧客の要求に応答する。 Agent is usually, or answer customer questions, or to respond to the customer's request. 会社は顧客サービスグループを有するが、これらは「顧客リレーションマネジメント」を専門にする会社に外部委託されることもある。 The company has a customer service group, they may also be outsourced to a company that specializes in "customer relationship management". このような会社は、何百人ものエージェントがスタッフとして配置されるセンタを運営し、これらのエージェントは、1日の全勤務時間を、電話をして過ごすかまたは他の方法で顧客と対話して過ごす。 Such a company, operates a center for hundreds of people agent is arranged as a staff, these agents, the total working hours of the day, to interact with customers or otherwise spend with the phone spend. このようなシステムの例が特許文献3に記載されている。 Examples of such systems are described in Patent Document 3.

顧客サービス対話の典型的なモデルは、1人のエージェントが、顧客対話の継続時間にわたって顧客を援助するものである。 A typical model of customer service interaction, one of the agents, is intended to assist the customer for the duration of the customer interaction. 時には、顧客が複数の要求について助けを必要とする場合、あるエージェント(例えば技術サポート担当者)が顧客を別のエージェント(販売担当者など)に転送することもある。 Sometimes, if the customer needs help for multiple requests, also be transferred to an agent (for example technical support personnel) is different the customer agent (such as a sales representative). しかし一般には、1人のエージェントが、顧客の電話またはチャットセッションの全継続時間にわたってこの1人の顧客の援助に自分の時間を費やすか、または、Eメールを介して顧客の問題を解決することに専念する。 However, in general, that one of the agents, or over the entire duration of the phone or chat session of the customer to the aid of this one customer spend their time, or, to solve customer problems via the E-mail to concentrate on. また、ほとんどのコールセンタは、エージェントが通話のログをとる(記録を残す)ために時間を割くものと考える。 Also, I think most of the call center, the agent (keep a record) take the call log to spend time things in order and. この重いエージェントインタフェースモデルの欠陥は、(1)エージェント離職者率が高いこと、並びに(2)通例、多くの初期および継続的なエージェントの訓練が必要であることであり、これらの全てにより、顧客サービスは結局、これらの顧客サービス提供者にとってかなりの出費になる。 Defects of the heavy agent interface model, (1) the agent leavers rate is high, and (2) usually is that training is required of many initial and ongoing agents, all these, the customer service eventually become a significant expense for these customer service providers.

エージェント関連の出費を軽減するために、組織によっては、その顧客サービスニーズを外部委託する。 In order to reduce the agent-related spending, some organizations, to outsource its customer service needs. 高速光ファイバ音声データネットワークの急増に伴う、近年の米国における傾向の1つは、より低い労働コストを利用するために顧客サービスセンタを海外に配置することである。 Due to the proliferation of high-speed fiber optic voice data network, one of the trend in recent years in the United States is to place a customer service center abroad to utilize lower labor costs. このような外部委託は、海外の顧客サービスエージェントが英語を流暢に話すことを必要とする。 Such outsourcing requires that the overseas customer service agent is fluent in English. これらのエージェントが電話ベースのサポートに使用される場合、エージェントが英語ではっきりと理解し話すことができることがしばしば課題になる。 If these agents are used in telephone-based support, that the agent can speak clearly understood in English is often a challenge. 海外への外部委託の不幸な結果は、サービスを求める人にとっての、誤解、および、満足に及ばない顧客サービス体験である。 Unfortunate result of outsourcing to foreign countries is, of those who seek services, misunderstanding, and is a satisfactory short of customer service experience.

改良された対話式応答システムは、コンピュータによって実施される音声認識を、人間エージェントの断続的使用と一体化する。 Improved interactive response system, a voice recognition carried out by the computer and integrated with the intermittent use of the human agent. ある程度、これは何年も行われてきた。 To some extent, this has been done for many years. 人間の係員と自動音声レコグナイザの両方を使用するシステムが扱われている(特許文献4)。 Systems using both human attendant and automatic speech recognizer is treated (Patent Document 4). 同様に、ユーザの発話を人間によって解釈する必要のある通話部分のみが、人間エージェントに提示されるシステムが開示されている(特許文献5)。 Similarly, it calls only parts that need to be interpreted by the human speech users, discloses a system which is presented to a human agent (Patent Document 5). これらの特許の内容、並びに本明細書で言及する他の全ての技術は、本明細書に完全に記載されているかのように参照により本明細書に組み込まれる。 These patents, and all other techniques mentioned herein are incorporated herein by reference as if fully set forth herein. このようなシステムの利益は、そのコストが比較的低ければ高まり、この低コストは一般に、限られた人間対話しか必要としないものである。 Benefit of such a system is increased if the cost is relatively low, the cost is generally one that requires only limited HIP. このような限られた人間対話を達成するには、最小限の初期訓練しか必要とせず、時の経過に伴って結果が向上し続けるシステムを有することが望ましいであろう。 Such To achieve the limited human interaction is minimal initial training requires only the results with the passage of time it would be desirable to have a system to continue to increase. 特に、本番使用に適する「初日からの」性能をもたらし、時の経過に伴って効率が素早く向上する学習/訓練システムが、とりわけ価値があるであろう。 In particular, it resulted in a "from the first day" performance suitable for production use, learning / training system that efficiency can be quickly improved with the passage of time is, will among other things is worth.

多くの既存のASRシステムは、システムの各特定ユーザの声を認識するように訓練される必要性、または妥当な結果を提供するために認識語彙を厳しく制限する必要性など、かなりの訓練制約を被る。 Many existing ASR systems, such as the need to severely limit the recognition vocabulary to provide the necessary or reasonable results are trained to recognize the voice of each particular user of the system, considerable training constraints suffer. このようなシステムは、ユーザによって人工的と認識されやすい。 Such a system tends to be recognized as artificial by the user. 典型的な人間プロンプト「ご用件をどうぞ。」と、人工的なプロンプト「予約したい場合は「したい」と、予約状況を確認したい場合は「状況」と、予約をキャンセルするには「キャンセル」と言って下さい。 A typical human prompt "for your business, please.", If artificial prompt "I want to reserve the" want to ", if you want to check the reservation status as" status ", to cancel a reservation" Cancel " Please say. 」との間の相違を考察されたい。 The differences between the "should be considered.

ASR(自動音声認識)による音声システムの目標は、「2001年宇宙の旅」の中のHALによく似た、発信者対話を実施するための会話システムを達成することであった。 ASR goal of the voice system by the (automatic speech recognition) is very similar to HAL in "2001: A Space Odyssey", was to achieve a conversation system for implementing the caller interaction. ASR機能を改善するために、音声ユーザインタフェース(VUI)技法が開発された。 To improve the ASR function, voice user interface (VUI) techniques have been developed. これにより、より高精度の音声認識を達成するために、使用される語彙を削減しようとして、かつ発信者が話さなければならない単語に関するヒントを発信者に与えようとして、プロンプトが正確かつコンパクトに表現される。 Thus, in order to achieve a more accurate speech recognition, in an attempt to give a hint about the words that must not trying to reduce the vocabulary to be used, and to speak the caller to the caller, prompt representation to accurate and compact It is. それ以来、ASRは向上し、今や自由回答式の会話認識にも対処する。 Since then, ASR is improved, now also deal with speech recognition of freedom answer formula. しかし、このような自由回答式の会話は、より多い語彙を必要とし、その結果、音声認識エラー率はずっと高くなる。 However, the conversation of such free-answer expression, requires a greater vocabulary, as a result, the speech recognition error rate is much higher. 結果的に、IVRシステムに対するより多くの不満および軽蔑の念が発信者に残る。 Consequently, many complaints and contempt precaution than for IVR system remains callers. これは例えば、前に何が述べられ理解されたかを過度に確認すること、間違った選択を行うこと、および発信者を前のメニューに戻らせることに基づく。 This example, confirming excessively what is understood stated before, performing the wrong choice, and the caller based on to return to the previous menu. VUI設計は、会話を一般から特定に絞り込もうとして、発信者をいわゆる「ディレクテッドダイアログ」に導こうと試みる。 VUI design, as will Shiborikomo to the specific from the general conversation, attempts to lead the caller to the so-called "Directed dialog". 小さい領域は、語彙が限られ発話レパートリが相対的に著しく小さいので、ASRおよびNLUは、ディレクテッドダイアログに適用されたときは、より成功してきた。 Small area, since speech repertoire limited vocabulary is extremely small relatively, ASR and NLU, when it has been applied to directed dialog has been more successful. IVR業界は、音声認識による統計および「探索」を使用して知識領域を特徴付けて、理解をさらに高めることに取り組んでいる。 IVR industry, characterizes the knowledge domain using statistical and "search" by the speech recognition, it is working to further enhance understanding. しかし、これらの手法はなお、かなりの数の発信者、特に、個人化されたASR音響モデルを構築するなどの複雑な技法を使用しても理解が困難な方言または発音パターンを有する発信者を、うまく扱わない。 However, these techniques still, caller significant number, particularly, a caller with a difficult dialects or pronunciation patterns understood using complex techniques such as building a personalized ASR acoustic model , not treated well. 人間援助型認識の登場に伴い、今や、自動化と共に人間の理解を活用して音声、テキスト、グラフィックス、およびビデオを認識する機会があり、これにより、理解がより正確になり、ASRベースのIVRシステムの弱点の多くが回避される。 With the advent of the human-assisted recognition, now, voice and take advantage of the human understanding with the automation, text, there is a graphics, and the opportunity to recognize the video, As a result, the understanding is more accurate, ASR-based IVR many of the weaknesses of the system is avoided. IVRシステムの根本的なタスクは、ユーザ要求に対応する様々な用件フォーム中の情報スロットを埋めるのを調整することである。 Fundamental tasks of IVR systems is to adjust the fill information slots in the various requirements form corresponding to a user request. 従来のIVRシステムでは、この調整は通常、あらかじめ固定された決定木に従って実施され、ユーザと対話するための限られた数の方法からの逸脱はほとんどない。 In conventional IVR system, this adjustment is normally carried out according to pre-fixed decision tree, there is little deviation from a limited number of ways to interact with the user. VUI設計の変形や、正確な理解をうまく識別するために最適化する種々の基準や、可能な最短の時間で理解および認識する技法を含めた、種々の認識戦略が開発されてきた。 VUI deformation and design, various standards and optimized to successfully identify accurate understanding, including understand and appreciate the techniques in the shortest possible time, various sensing strategies have been developed.

発信者と、人間援助型認識を使用する自動システムとの間の対話をできるだけシームレスかつ自然なものにするために様々な適切な技法をシステムが使用することには、多くの理由がある。 And callers, various suitable techniques for the interaction between the automatic system using human assisted recognized as seamless as possible and natural thing that the system uses, there are many reasons.

人間は、自動音声認識(ASR)、グラフィックスおよびビデオ処理、並びに自然言語理解(NLU)技法よりも、ずっと高い精度で意味を認識し解釈する。 Humans, automatic speech recognition (ASR), graphics and video processing, as well as than the natural language understanding (NLU) technique, to interpret and recognize the meaning at a much higher accuracy. 自動化の精度が不十分なときに人間を用いて理解することができるならば、かなり多くのユーザ対話を自動化しながらもなお、良いユーザ体験を提供することが可能になる。 If the accuracy of the automation can be understood to using humans when insufficient still, it is possible to provide a good user experience while automating significantly more user interaction. しかし、コンピュータリソースは、異常な予測されないボリュームピークを満たすようにスケールすることができるが、人間リソースは、そうしたコンピュータリソースとは異なり、スケジュールされる必要があり、ピークに合うようにタイミングよく利用可能ではないことがある。 However, the computer resources can be scaled to meet the volume peak which is not unusual predicted, human resources, unlike such computer resources need to be scheduled may be available timing to suit the peak there is not a. 従って、精度が十分でないときにはDTMF(dual-tone multi-frequency)も使用して、システムがどんな特定の適用例での必要HSR量にも自動的に合わせ、それによりHSRの使用を最小限に抑えることが必要とされている。 Therefore, also using DTMF (dual-tone multi-frequency) when the accuracy is not sufficient, the system also automatically fit the needs HSR amount of any particular application, thereby minimizing the use of HSR it has been necessary. 予定外のピーク中に人間の対話が変化することになっても、より従来式のやり方でセルフサービスを実施し続けることができる。 Even if it means changing human interaction during unscheduled peaks, we can continue to implement the self-service in a more conventional manner.

目標は今や、どのように人間援助と自動化を組み合わせて発信者の発話を最もよく認識および解釈すると同時に可能な最も人間らしいユーザ体験を達成するかということになるが、音声認識を整調し、認識された発話を分類して、最高の認識レベルを達成するのに使用される従来技法は、微妙だが重要な形で変化する。 The goal is now how becomes human aid and the best recognize and interpret the speech of the caller in combination automated of how to achieve the most humane user experience possible simultaneously be, then pacing the speech recognition, the recognized It was classified utterances, the conventional technique used to achieve the highest recognition level, but subtle changes in important ways. 従って、既存のシステムによって対処されない難題は、最もうまくいくユーザ体験を提供しながら、所与の作業負荷の下における所与の状況でどのように人間と自動化との最も効率的な組合せを使用するかである。 Accordingly, challenges that are not addressed by existing systems, while providing the most well go user experience, using the most efficient combination of how human and automated given situation under the given workload it is how.

従来、ASRシステムは、発話されるのに伴って、それを「聞く」のを開始する。 Conventionally, ASR systems, as the uttered, starts the "listening" to it. 認識自動化が失敗した場合は、ユーザは、完全な発話が話されるのにかかる時間長にわたって待機することになり、その後、HSRが、聞くのを開始してそれを処理することになる。 If recognition automated fails, the user must wait for a time length for a complete utterance is spoken, then, HSR is will process it to start listening. そうではなく、システムがリアルタイムに近い形で対話を理解しようとすることができれば望ましいであろう。 Rather, the system It would be desirable to try to understand the dialogue as close to real time. 例えば、ユーザがどんどん単語を話してそれらの意味(または「意図」)を記述するのに伴い、まずASRによって処理され、次にHSRによって処理される結果、発話の終わりと応答の始まりとの間にかなりの時間ギャップが生じる。 For example, as to describe the meaning of those users speaking rapidly words (or "intended"), is first processed by ASR, then the results are processed by the HSR, between the beginning of the response and the end of the speech It caused a considerable amount of time gap. この時間ギャップは、例えば、タイピング音などのオーディオ再生で埋めることもできる。 This time gap is, for example, can also be filled with audio playback, such as typing sound. これは適用例によってはうまくいく可能性があり、特に、データを収集する適用例ではうまくいく可能性がある。 It some applications may work well, in particular, there is a possibility that work well in applications for collecting data. 他の適用例では、この時間ギャップにより、システムと自然な会話を続けるのが困難になる。 In other applications, this time gap, it is difficult to keep up the system and natural conversation. 加えて、話が長いほど認識品質が低くなることも多い。 In addition, it is also often long enough to recognize quality story is lowered. 話が長いほど、話に含まれる単語が多いだけでなく単語結合も多い。 As the story is long, word combination is often not only often a word that is included in the story. まとめると、これらにより、音声認識エラーが増加し、理解の精度が低下する。 Taken together, these increases speech recognition errors, the accuracy of understanding is lowered.

従って、人間援助を使用する前にできるだけ早く理解してうまくいく認識を予測し、人間らしい対話を維持することのできる、自動認識システムが必要とされている。 Therefore, to predict successful recognition as soon as possible understand before using human assistance, capable of maintaining the human-like interaction, the automatic recognition system is needed. さらに、人間援助が求められる場合もあるので、この自動認識システムはまた、人間援助のスタッフ配置を監視して、システムステータス負荷および人間援助スキルセット能力に応じて、理解の信頼度を自動的に調節することおよび/または完全な自動化に進むことができることも必要とする。 Furthermore, since in some cases human assistance is required, and this automatic recognition system monitors the staffing of human assistance, depending on the system status the load and human assistance skill set capacity, automatically the reliability of understanding also it requires that can proceed to regulate and / or fully automated.

自然言語理解(NLU)システムなど、より大がかりなシステムは、使用可能な結果をより大きな文法および語彙から得るために、骨の折れる手仕事による文法記述の多大な機械学習期間を必要とする。 And natural language understanding (NLU) system, more large-scale systems, in order to obtain usable results from a larger grammar and vocabulary, and requires a great deal of machine learning period grammar description by laborious manual work. 特に、語彙が動的である可能性のある環境(新しい演劇、または新しい音楽グループによるコンサートの、チケット注文をとるシステムなど)では、学習期間は、満足のいく結果をもたらすためにはあまりにも長すぎることがある。 In particular, the environment in which the vocabulary is potentially a dynamic in the (new theater or a new by music groups of the concert, the system, such as taking a ticket order), the learning period is too long in order to bring about satisfactory results there is that too. アクセント、方言、語彙および文法の地域差などを含めると、このようなシステムが認識精度の妥当な閾値を達成できるようにシステムに教えるタスクは、さらに複雑になる。 Accent, dialect, the inclusion of such regional differences in vocabulary and grammar, the task of teaching the system to such a system can achieve a reasonable threshold recognition accuracy is further complicated.

現在利用可能なASRシステムは、数、データ並びに単純な文法(すなわち、小さい単語のセット、およびそれらからなる表現)など、単純な口頭の発話を認識するのには効果がある。 Currently available ASR systems, several data and a simple grammar (i.e., a set of small words, and consisting representation), such as is effective to recognize the speech of a simple oral. しかし、今までのところ、ASRシステムは、自由に流動する会話を提供する音声インタフェースを生み出すだけの十分に高いレベルの音声認識性能を提供していない。 However, so far, ASR system does not provide a freely sufficiently high level of speech recognition performance of only produce a voice interface to provide the conversation flowing. 加えて、ASR性能は、上述したようなアクセントや方言によって劣化するだけでなく、背景雑音、子供の声よりも大人の声、および多くの場合に男性の声よりも女性の声によっても劣化する。 In addition, ASR performance, not only degraded by accents and dialects, such as described above, background noise, also degraded by the voice of the woman than the voice of the man in the case of adult voice than the children of the voice, and many of . ASR性能は時の経過に伴って向上しており、あるシステムは、発信者からの極めて幅広い応答を認識するように意図された統計言語モデルを使用し、従って発信者は、非常に制約された話し方で話すのではなく自然に話すときでも認識されることが可能である。 ASR performance is improved with the passage of time, some systems use intended statistical language model to recognize a very wide range of responses from the caller, thus the caller, it was very limited than speak in speaking it is possible to be recognized even when you speak naturally without. そうであっても、ASR性能は依然として人間同士の実際の対話には匹敵しておらず、最高レベルの性能を提供するASRシステムは、時間がかかり、構築して特定の適用例に整調する(tune)のが高価である。 Even so, ASR performance is not comparable to the still actual interaction between humans, ASR system to provide the highest level of performance, it takes a long time, it is tuned to a particular application to build ( tune) the is expensive.

予想される様々な回答の統計的確率並びに類義語を考慮することによって文法を整調することは、ASR性能を向上させるために使用される技法の1つである。 It is one of the techniques used to improve the ASR performance for pacing the grammar by considering the statistical probability and synonyms of the expected different answers. 別の技法は、統計言語モデルを作り出すことだが、これは、生のオペレータとの生の電話会話の発話の録音を文字に起こすためのかなりの労力を必要とする可能性がある。 Another technique, but it can create a statistical language model, which is likely to require considerable effort for causing the recording of the speech of the raw telephone conversation with the raw operator in character. ASR性能は、ある適用例ではかなり許容できるが、他の適用例ではまだ適さず、従って、知られているASRベースのシステムは依然として、制約されない自然な発話を理解する能力に欠ける。 ASR performance, it is quite acceptable in applications, still not suitable for other applications, therefore, known ASR-based systems still lack the ability to understand the natural speech unconstrained.

従って、構成するASRコンポーネントの制限なしに、一貫して高品質な体験を提供する対話式システムが、依然として当技術分野で必要とされている。 Therefore, without the ASR component constituting limiting, interactive systems consistently provide high quality experience, is still a need in the art.

米国特許第6,411,686号明細書 US Pat. No. 6,411,686 米国特許第6,499,013号明細書 US Pat. No. 6,499,013 米国特許第5,987,116号明細書 US Pat. No. 5,987,116 米国特許第5,033,088号明細書 US Pat. No. 5,033,088 米国特許第7,606,718号明細書 US Pat. No. 7,606,718

対話式応答システムが、HSRサブシステムをASRサブシステムと混合して、自然言語理解を容易にし、音声ユーザインタフェースの能力全体を改善する。 Interactive response system, the HSR subsystem mixed with ASR subsystem, to facilitate natural language understanding, to improve the overall capability of the voice user interface. このシステムは、不完全なASRサブシステムが、必要時にHSRを使用でき、それでもなお、負荷がかかっているHSRサブシステムの負担を軽減できるようにする。 This system, incomplete ASR subsystem can use HSR when needed, nevertheless, to be able to reduce the burden on HSR subsystem load is applied. ASRプロキシを使用してIVRシステムが実現され、このプロキシは、一連の規則に基づいて、発話を1つのASRのみにルーティングすること、発話を少なくとも1つのASRに加えてHSRにもルーティングすること、発話を1または複数のHSRサブシステムのみにルーティングすること、ASRに元々送られた発話をHSRにルーティングし直すこと、HSRを使用して1または複数のASRの整調および訓練を補助すること、並びに、複数のASRを使用して結果の信頼性を高めることを決定する。 ASR is realized IVR system using a proxy, the proxy is based on a set of rules, to route the speech only one ASR, be routed to HSR in addition to at least one of ASR speech, routing the speech only to one or more of HSR subsystems, to re-route the originally sent uttered ASR the HSR, to aid in the pacing and training of one or more ASR using HSR, and It decides to increase the reliability of results using a plurality of ASR.

一態様では、ASRプロキシは、認識決定エンジンおよび結果決定エンジンを備える。 In one embodiment, ASR proxy comprises a recognition decision engine and result decision engine. 関連する一態様では、この2つのエンジンは、様々な用件フォーム中の情報スロットを正確に埋めるために、認識性能、自然言語理解、並びに認識および文法整調を容易にする。 In a related aspect, the two engines, in order to fill the information slots in the various requirements form accurately, recognition performance, for natural language understanding, as well as recognition and grammar pacing easy.

さらに別の態様では、ASRプロキシは、アプリケーション基準と、認識信頼度予測と、履歴結果と、特定ユーザの声で経験される認識とのうちの、1または複数に基づいて、ASRリソースおよび/またはHSRリソースを選択する。 In yet another aspect, ASR proxy, and the application reference, the recognition reliability prediction and history result of the recognition experienced in the voice of a specific user, based on one or more, ASR resource and / or to select the HSR resources.

さらに別の態様では、ASRプロキシは、ASRの使用を最大限にすること、またはやりとりをより「人間らしい」若しくはより「人間らしくない」ものにすることなど、様々なパラメータに基づいて構成可能である。 In yet another aspect, ASR proxy is to maximize the use of the ASR, or "not humane" more "human-like" or more exchanges, etc. to those, is configurable based on various parameters.

さらに別の態様では、ASRプロキシは、HSRのシステムリソースキャパシティに自動的に合わせて、ASRまたはDTMFの使用を最大限にする。 In yet another aspect, ASR proxy automatically according to the system resource capacity of HSR, to maximize the use of the ASR or DTMF.

さらに別の態様では、ASRプロキシは、ASR結果を分析する評価コンポーネントの結果を使用して、長さベースのテストに対する最適な長さと、種々のプロンプトへのユーザ応答に対する最適な品質測定基準レベルと、種々のプロンプトに対する最適な分類器とのうちの、1または複数を選択する。 In yet another aspect, ASR proxy uses the results of the evaluation component that analyzes the ASR result, and optimum length to the length-based testing, and optimal quality metric level for user responses to various prompts , of the best classifiers for the various prompts to select one or more.

さらに別の態様では、ASRプロキシによるASRリソースまたはHSRリソースの選択は、ASRプロキシに音声認識を要請するソフトウェアアプリケーションにはトランスペアレントである。 In yet another aspect, the selection of ASR resource or HSR resources by ASR proxy, the software application requesting the speech recognition ASR proxy is transparent.

さらに別の態様では、このシステムは、HSR使用時のリアルタイムに近い形で、うまくいく自動認識を予測する方法を使用して、より人間らしい体験を維持する。 In yet another aspect, the system in the form near real-time during HSR use, using a method of predicting the automatic successful recognition, to maintain a more human-like experience.

本開示において対象とされる特定の構成を他の様々な方式でも実現できることは、当業者なら認識するであろう。 Can be implemented in other various ways a specific configuration which is the subject in this disclosure, will recognize those skilled in the art. 特段に定義しない限り、本明細書で使用される全ての技術用語および科学用語は、本開示の属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。 Unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which belongs the present disclosure.

前述の特徴は、本開示の範囲を逸脱することなく、単独でまたは組み合わせて使用することができる。 The foregoing features, without departing from the scope of the present disclosure, or can be used alone or in combination. 本明細書に開示するシステムおよび方法の他の特徴、目的および利点は、後続の詳細な記述および図から明らかになるであろう。 Other features, objects, and advantages of the systems and methods disclosed herein will become apparent from the following detailed description and drawings.

さらに他の特徴および様々な利点は、添付図面と共に後続の詳細な記述を読めば明らかになるであろう。 Still other features and various advantages will become apparent upon reading the subsequent detailed description in conjunction with the accompanying drawings. 図面全体を通して、同じ参照文字は同じ部分を指す。 Throughout the drawings, like reference characters refer to the same parts.
対話式応答システムのアーキテクチャの一実施形態を示すブロック図である。 Is a block diagram showing an embodiment of an architecture of an interactive response system. 顧客と対話式応答システムと人間インタフェースとの間の通信の方法の一実施形態を示すフローチャートである。 Is a flowchart illustrating an embodiment of a communication method between a customer and the interactive response system and human interface. 図2のコンテキストにおける、顧客/対話式応答システムの対話の一実施形態を示すチャートである。 In the context of FIG. 2 is a chart illustrating one embodiment of an interaction of the customer / interactive response system. 図2のコンテキストにおける、顧客意図およびデータをキャプチャするための一実施形態を示すコンピュータ画面ユーザインタフェースの図である。 In the context of FIG. 2 is a diagram of a computer screen user interface illustrating one embodiment for capturing customer intent and data. 図2のコンテキストにおける、顧客/対話式応答システムの対話の一実施形態を示すチャートである。 In the context of FIG. 2 is a chart illustrating one embodiment of an interaction of the customer / interactive response system. 図2のコンテキストにおける、顧客意図およびデータをキャプチャするための一実施形態を示すコンピュータ画面ユーザインタフェースの図である。 In the context of FIG. 2 is a diagram of a computer screen user interface illustrating one embodiment for capturing customer intent and data. 図2のコンテキストにおける、顧客/対話式応答システムの対話の一実施形態を示すチャートである。 In the context of FIG. 2 is a chart illustrating one embodiment of an interaction of the customer / interactive response system. 図2のコンテキストにおける、顧客意図およびデータをキャプチャするための一実施形態を示すコンピュータ画面ユーザインタフェースの図である。 In the context of FIG. 2 is a diagram of a computer screen user interface illustrating one embodiment for capturing customer intent and data. 対話式応答システムのコンテキストでEメールを処理するフローチャートである。 In the context of the interactive response system is a flowchart for processing the E-mail. 訓練サブシステムを有する対話式応答システムのアーキテクチャの一実施形態を示すブロック図である。 Is a block diagram showing an embodiment of an architecture of an interactive response system having a training subsystem. ASR訓練に関する例示的な処理フロー800の図である。 Is a diagram of an exemplary process flow 800 relates ASR training. 本明細書で参照されるコンピュータ/プロセッサのいずれかとして使用されるコンピュータ900の例を示す高レベルのブロック図である。 Is a high level block diagram showing an example of a computer 900 that is used as either a computer / processor referred to herein. 異なる意図分析者によってオーディオストリームの意図およびデータを認識することのタイムライン表現の図である。 It is a time line chart of representation of recognizing the intent and data of the audio stream by a different intention analyst. ASRプロキシと対話するアプリケーションのブロック図であり、プロキシの主要なコンポーネントを示す図である。 Is a block diagram of an application that interact with ASR proxy is a diagram illustrating the major components of the proxy. ASRを使用するかHSRを使用するかまたは両方を使用するかを決定するための、認識決定エンジンのプロセスおよび決定フローを示す流れ図である。 To determine whether to use either or both to use or HSR to use ASR, it is a flow diagram illustrating the process and flow of determining recognition decision engine. 単一のASRを使用する結果決定エンジンのプロセスおよび決定フローを示す流れ図である。 It is a flow diagram showing a process and flow of determining results decision engine using a single ASR. 複数のASRを使用する結果決定エンジンのプロセスおよび決定フローを示す流れ図である。 It is a flow diagram showing a process and flow of determining results decision engine using multiple ASR. ASRとHSRの両方を使用する結果決定エンジンのプロセスおよび決定フローを示す流れ図である。 It is a flow diagram showing a process and flow of determining results decision engine that uses both ASR and HSR. HSRを使用する結果決定エンジンのプロセスおよび決定フローを示す流れ図である。 It is a flow diagram showing a process and flow of determining result determination engine using HSR. 自動認識および人間援助認識による応答ギャップを示す時系列の図である。 It is a diagram of a time series showing the response gap with automatic recognition and human assistance recognition. アプリケーション、およびASRプロキシとの対話のブロック図であり、ASRプロキシの主要なコンポーネントを示す図である。 Application, and ASR is a block diagram of a dialogue with the proxy is a diagram illustrating the major components of the ASR proxy. 認識に関する統計とシステムステータスに関する情報とを用いた認識決定および結果決定のプロセスおよび決定フローを示す流れ図である。 It is a flow diagram showing a process and flow of determining recognition decisions and result determination using the information about the statistics and system status on the recognition. ASR統計とシステムステータスとを用いた認識決定および結果決定を示す流れ図である。 Is a flow diagram illustrating a recognition decision and the result determined using the ASR statistics and system status. タイマASR統計とシステムステータスとを用いた認識決定および結果決定を示す流れ図である。 Is a flow diagram illustrating a recognition decision and the result determined using a timer ASR statistics and system status. 予測器認識ASR統計とシステムステータスとを用いた認識決定および結果決定を示す流れ図である。 Is a flow diagram illustrating a recognition decision and the result determined using a predictor recognition ASR statistics and system status. 統計を生み出すためのプロセスを示すフローの図である。 It is a diagram of a flow illustrating a process for producing the statistics. 統計を生み出すためのいくつかの認識最適化基準の例を示す図である。 Is a diagram illustrating an example of some of the recognition optimization criteria for producing statistics.

まず、図1〜図10に従って、対話式応答システム並びに関連する機械学習システムおよびプロセスの動作についての記述を提供する。 First, with reference to FIGS. 1 to 10, it provides a description of the operation of the interactive response system and related machine learning systems and processes. その後、図11〜図16に従って、ASRプロキシシステム並びにそれに関連するプロセスの動作についての記述を提供する。 Thereafter, according to FIGS. 11 to 16, provides a description of the operation of the process of ASR proxy system and associated with it. 図17〜図24および対応する考察は一般に、ASRプロキシを最適化するプロセスに関し、目標は、コンピュータ認識の自動化と人間援助型認識との組合せを最適化すると同時にユーザ体験を向上させることである。 The discussion generally 17 to 24 and the corresponding relates to a process for optimizing the ASR proxy, the goal is to improve at the same time user experience Optimizing the combination of automated and human assisted recognition computer recognition. 特段に明白でない限り、本明細書で使用される用語「意図」および「意味」は、発話に対応するコンテキスト上の理由を指すことに留意されたい(例えば、新しいフライト予約をするという発信者の用件意図をシステムに決定させる)。 Unless expressly otherwise, "meaning" and the terms used "contemplated" herein, it should be noted that to refer to reasons context corresponding to the utterance (e.g., the caller that the new flight booking to determine the requirements for target system). 対照的に、用語「認識する」およびその派生語は一般に、本明細書では、音をそれに対応する単語に変換するプロセスに使用される。 In contrast, the term "recognizes" and its derivatives are generally, in this specification, a sound is used in the process of converting the word corresponding thereto.

人間援助型決定エンジンを使用して、マルチチャネルおよびマルチモーダルシステムが実現される。 Using human assisted decision engine, multi-channel and multi-modal system can be realized. これは、「対話」を自動化にルーティングした後で、かつ自動化からの予測結果に応じて、予測データおよびキャパシティ要因のセットに基づいて、自動認識の競合の前であってもHSRの使用を決定する。 This is after routing the "dialogue" to automate, and in accordance with the prediction result from automation, based on the prediction data and a set of capacity factor, the use of even before the automatic recognition competitive HSR decide. ある実施形態では、システムは、「発話」または「ビデオ」を自動的に加速させ、自動化と人間援助との間の時間ギャップをさらに短縮する。 In some embodiments, the system automatically accelerates the "utterance" or "video", further reducing the time gap between the automated and human assistance.

プロンプトに対する応答の解釈は、テキスト分析の2つの種類、すなわち情報抽出およびセンス分類として見ることができる。 Interpretation of the response to the prompt, the two kinds of text analysis, i.e. can be viewed as an information extraction and sensing classification. 情報抽出は、顧客ID、電話番号、日時、住所、製品タイプ、問題など、用件フォームのスロットを埋めるのに不可欠な特定の情報断片を、識別、抽出および正規化することである。 Information extraction, customer ID, phone number, date and time, address, product type, such as a problem, the specific pieces of information essential to fill the requirements form of slot, identification, extraction and is to normalize. センス分類は、追加の2つの情報タイプ、すなわち意味(意図)および応答品質を識別することに関係する。 Sense classification relates to identifying additional two information types, i.e. means (intended) and the response quality. 意味(意図)は、どんな種類のフォームを埋める必要があるかということと関係がある(料金請求、予約のスケジューリング、苦情など)。 Meaning (intention) is, what kind of form related to the fact that there is a need to fill the (billing, scheduling reservations, complaints, etc.). 応答品質は、応答自体と関係がある(不明瞭、雑音、英語ではなくスペイン語、生のエージェントと話したいという要望など)。 Response quality is related to the response itself (unclear, noise, rather than the English Spanish, such as the desire to speak with a live agent).

この応答解釈は、意図分析のみ(純粋なHSR)によって行うか、自動化(ASRおよび意図分類)によって行うか、またはASRとHSRの何らかの組合せによって行うことができる。 This response interpretation can be done either performed by the intended analysis only (pure HSR), or performed by an automated (ASR and intended classification), or some combination of the ASR and HSR. ASR自動化の結果における信頼度測定基準を使用して、いつASRが信頼性のある結果を生成しているかを決定することで、限定的な品質損失でまたは品質損失なしに、ASR自動化をHSRに対してトレードオフすることが可能である。 Using the confidence metric in the results of the ASR automation, time by determining whether the generated results ASR is reliable, without limiting quality loss or quality loss, the ASR automated HSR it is possible to trade-off for. このことは、プロキシ処理システムにおけるこの2つの手法の組合せにより、HSRのみを使用する場合よりも大きなスループットを達成することができ、より小さい意図分析者チームでピーク需要負荷を処理できることを意味する。 This is the combination of the two approaches in proxy processing system, it is possible to achieve a greater throughput than using HSR only means that can handle the peak demand load smaller intention analyst team.

図1は、対話式ルータ101(以下「iルータ」と呼ぶ)を介して対話プラットフォーム102を対話式応答システム100に接続するアーキテクチャの一実施形態を示す。 Figure 1 illustrates one embodiment of an architecture for connecting an interactive platform 102 in interactive response system 100 via the interactive router 101 (hereinafter referred to as "i router"). 図1に示すように、対話プラットフォーム102は、通信リンク104を介して顧客103に接続される。 As shown in FIG. 1, interactive platform 102 is connected via a communications link 104 to the customer 103. 対話プラットフォーム102はまた、データリンクを介してiルータ101において対話式応答システム100に接続され、データリンクは、この例示的な実施形態ではTCP/IPデータリンクを含む。 Interactive platform 102 is also connected to the interactive response system 100 in i router 101 via a data link, the data link, in this exemplary embodiment includes a TCP / IP datalink. この例示的な実施形態における対話プラットフォーム102は、コンピュータサーバを含む。 Interactive platform 102 in this exemplary embodiment includes a computer server. コンピュータサーバの正確な構成は実装形態によって異なるが、通常は、Dialogic(登録商標)などのベンダからの音声ボードを使用してWindows(登録商標)やLinux(登録商標)などのオペレーティングシステムを実行するPentium(登録商標)ベースのサーバからなる。 The exact configuration of the computer server varies depending implementations usually executes an operating system such as Windows (registered trademark) and Linux (registered trademark) using the voice board from vendors such as Dialogic (R) consisting of Pentium (R) based servers. 対話プラットフォーム102はまた、Eメールゲートウェイまたはウェブサーバとすることもできる。 Interactive platform 102 may also be an E-mail gateway or web server. 従って、顧客入力は、電話または構内通話を介して対話式応答システム100に入り、テキストは、Eメールまたは対話式チャットインタフェース(例えば、ウェブページ、若しくはYahoo Messengerなどのスタンドアロンアプリケーション)を介して入力される。 Therefore, customer input, enter the interactive response system 100 via the telephone or premises call, text, E-mail or interactive chat interface (for example, stand-alone applications such as a web page, or Yahoo Messenger) is input via the that.

図1のアーキテクチャでは、様々な実施形態で、いくつかの異なるタイプのデバイスを使用して対話プラットフォーム102および通信リンク104の各々が実現される。 In the architecture of Figure 1, in various embodiments, each of several different conversation using the type of device platform 102 and the communication link 104 is achieved. 対話プラットフォーム102は、顧客103と通信できる任意のデバイスによって実現することができる。 Interactive platform 102 may be implemented by any device that can communicate with the customer 103. 例えば、対話プラットフォーム102は、一実施形態では、対話式応答システム100中の電話サーバであり、この場合、顧客は電話をかけている。 For example, interactive platform 102, in one embodiment, a telephone server in interactive response system 100, in this case, customers are a call. 電話サーバは、入来呼の応答、転送および切断を扱う。 Telephone server handles the response of incoming calls, forwarding and cutting. 電話サーバはまた、事前録音済みオーディオクリップのための倉庫であり、従って電話サーバは、任意のウェルカムプロンプト、およびiルータ101によって指示された他のオーディオクリップを再生することができる。 Telephone server is also a warehouse for pre recorded audio clip, thus telephony server can reproduce another audio clips that have been indicated by any welcome prompt and i router 101,.

本実施形態による電話サーバは、オフザシェルフ(off the shelf)コンポーネントから、例えば、オペレーティングシステムとしてのWindowsと、Pentiumプロセッサなどの中央処理装置と、Intel(登録商標)Dialogic音声ボードとから組み立てられる。 Telephone server according to the present embodiment, the off-the-shelf (off the shelf) component, for example, and Windows as the operating system, assembled from a central processing unit, such as a Pentium processor, a Intel (R) Dialogic voice boards. このアーキテクチャを使用した場合、通信リンク104は、顧客の電話と電話サーバの間のインタフェースを提供する任意の手段によって実現される。 Using this architecture, communication link 104 is realized by any means that provides an interface between the telephone and the telephone server the customer. 例えば、通信リンク104は、様々な実施形態で、ダイヤルアップ接続または双方向ワイヤレス通信リンクである。 For example, the communication link 104, in various embodiments, a dial-up connection or two-way wireless communication link.

別の例示的な実施形態では、対話プラットフォーム102は、対話式応答システム100中のゲートウェイサーバである。 In another exemplary embodiment, interactive platform 102 is a gateway server in the interactive response system 100. この例示的な実施形態によれば、顧客は、Eメール、対話式テキストチャットまたはVOIPによって、対話式応答サーバと対話する。 According to this exemplary embodiment, the customer, E-mail, by interactive text chat or VOIP, interacts with the interactive response server. ゲートウェイサーバは、カスタマイズドオープンソースEメール、wwwサーバソフトウェアまたはSIPを実行する。 Gateway server performs a customized open source E-mail, www server software, or SIP. さらに、この例示的な実施形態によるゲートウェイサーバは、Eメール、対話式テキストチャットまたはVOIPトランザクションを顧客と行うとともに、システムの他の要素とのデータ転送および受信もするように設計される。 Additionally, the gateway server according to this exemplary embodiment, E-mail, interactive text chat or VOIP transactions performs a customer, is designed to be data transfer and reception of the other elements of the system. このアーキテクチャを使用した場合、通信リンク104は、顧客のコンピュータとゲートウェイサーバとの間のインタフェースを提供する任意の手段によって実現される。 Using this architecture, communication link 104 is realized by any means that provides an interface between the customer's computer and the gateway server. 例えば、通信リンク104は、様々な実施形態で、専用インタフェース、単一のネットワーク、ネットワークの組合せ、ダイヤルアップ接続またはケーブルモデムである。 For example, the communication link 104, in various embodiments, a dedicated interface, a single network, a combination of networks, a dial-up connection or a cable modem.

図1には対話プラットフォーム102が1つしか示されていないが、本明細書を検討した後には、複数の対話プラットフォーム102をこのシステム中で使用できることを当業者なら理解するであろう。 Interactive platform 102 is not shown only one in Figure 1, after reviewing this specification will be understood by those skilled in the art that can be used multiple interactive platform 102 in this system. 対話プラットフォーム102が複数ある場合、対話式応答システムは、音声およびテキストデータを介して顧客と通信することができる。 If the conversation platform 102 there are multiple, interactive response system can communicate with the customer via voice and text data. さらに、顧客ベースごとの専用対話プラットフォーム102によって、複数の顧客ベースに対応することもできる。 It is also possible to by a dedicated interactive platform 102 per customer basis, corresponding to a plurality of customer base. このようにして、複数の対話プラットフォーム102のうちのどれが対話を開始したかを決定することによってワークフロー(後で詳述する)が選択される。 In this way, the workflow (later described in detail) by which of the plurality of interactive platform 102 determines whether to start the conversation is selected.

図1のアーキテクチャでは、iルータ101は、対話式応答システム100を制御するソフトウェアを備える。 In the architecture of FIG. 1, i router 101 includes software for controlling the interactive response system 100. iルータ101は、他のコンポーネント間のアクティビティを調整しトランザクションを管理することによって、顧客103との対話を始めから終わりまで「所有する」。 i router 101, by managing the transaction to adjust the activity between other components, "owns" from the beginning to the end of the dialogue with the customer 103. iルータ101は、1または複数のプログラム可能スクリプト(この例示的な実施形態によれば「ワークフロー」と呼ばれる)に従って、顧客103との対話を管理する。 i router 101, according to one or more programmable script (According to this exemplary embodiment are referred to as "workflow"), to manage the interaction with customers 103. 一般に、ワークフローは、ワークフローを通る経路が、顧客から入力された意図に依存するような、対話フローを含む。 In general, the workflow, path through the workflow, that depend on the intended input from the customer, including the dialog flow. ワークフローは、システムエンジニアによって事前にプログラムされ、有利には、顧客満足や速度や精度などを向上させるために定期的に「小改良」される。 Workflow is programmed in advance by the system engineer, advantageously, it is regularly "small improvement" in order to improve the customer satisfaction, speed and accuracy. この例示的な実施形態によれば、iルータ101は、ほぼ常に、ワークフロー中の次のステップまたは経路を選択することを「受け持っている」。 According to this exemplary embodiment, i router 101, almost always, to select the next step or path in the workflow "is responsible."

iルータ101は、顧客コミュニケーションの形に応じて、オーディオクリップ、Eメール、テキストデータまたは他の対話タイプの形で、対話プラットフォーム102から入力された対話を受信する。 i router 101, depending on the form of customer communication, audio clips, E-mail, in the form of text data or other interaction type, receives an interactive input from the interactive platform 102. iルータ101は、この入力を、1または複数の人間エージェント105(「意図分析者」すなわち「IA」と呼ばれることもある)、音声認識エンジンまたはエキスパートシステム(まとめて108、また「自動音声レコグナイザ」すなわち「ASR」と呼ばれることもある)に転送し、応答を利用してその現在のワークフローを進める。 i router 101, the input, (sometimes referred to as "intent analyst" or "IA") one or more human agents 105, the speech recognition engine or expert system (collectively 108, also "automatic speech recognizer" that transferred to also) be referred to as "ASR", advances the current workflow by using a response. 入力を人間によって解釈(または翻訳)することが必要なときは、iルータ101は、現在のワークフローの適切な視覚コンテキストを表示するよう、人間エージェントのデスクトップソフトウェアに指示する。 When the input of the need to interpret by a human (or translation) is i router 101, to display an appropriate visual context of the current workflow, it instructs the desktop software human agent. iルータ101が入力を理解すると、iルータ101は、ワークフローの中を進み、対話プラットフォーム102に、顧客103に適切に応答するよう指示する。 When i router 101 to understand the input, i router 101 proceeds through the workflow, the interactive platform 102, it instructs to properly respond to the customer 103.

対話プラットフォーム102が電話サーバを含む例示的な一実施形態では、iルータ101は、顧客に対して再生するためのサウンドクリップを送るか、テキスト−音声クリップを送るか、またはこの両方を送る。 In an exemplary embodiment dialogue platform 102 includes a telephony server, i router 101, send sound clips to play to the customer, the text - or send voice clips, or send both. あるいは、対話プラットフォーム102は、サウンドクリップを記憶することができるか、テキスト−音声機能を有することができるか、またはこの両方とすることができる。 Alternatively, interactive platform 102, or can store sound clips, text - it can have a voice capabilities, or may be both. この実施形態では、iルータは、顧客に対して何をいつ再生するかについて、対話プラットフォーム102に指示する。 In this embodiment, i router anything about when to play the customer, and instructs the interactive platform 102.

iルータ101は、この例示的な実施形態では、WindowsやLinuxなどのオペレーティングシステムを実行するネットワーク化されたオフザシェルフの市販プロセッサを備える。 i router 101, in this exemplary embodiment comprises a commercially available processor off-the-shelf, which is networked running an operating system such as Windows or Linux. さらに、iルータ101のソフトウェアは、特定の適用例に適したオブジェクトを組み込んだ、修正されたオープンVoiceXML(VXML)ブラウザおよびVXMLスクリプトを含む。 Moreover, the software of the i router 101, incorporating the object suitable for a particular application, including an open VoiceXML (VXML) browser and VXML scripts that have been modified. 本明細書を検討した後には、これらのオブジェクトをどのように構築するかを当業者なら理解するであろう。 After considering this specification will how to build these objects be understood by those skilled in the art.

図1の例示的なアーキテクチャによれば、対話式応答システム100は、人間エージェント105の少なくとも1つのプールを含む。 According to the exemplary architecture of FIG. 1, an interactive response system 100 includes at least one pool of human agents 105. 人間エージェント105のプールはしばしば、コンタクトセンタ所在地に位置する。 Pool Human Agent 105 often located in the contact center location. 人間エージェント105は、本発明のこの実施形態によれば、システム100に特有の特殊化されたデスクトップソフトウェア(図3B、図4Bおよび図5Bに関してさらに後述する)を使用し、このソフトウェアは、可能性ある意図の集まりを、その時点までの顧客対話の履歴またはコンテキストと共に、それらの画面(それらのユーザインタフェース)上に提示する。 Human agent 105, according to this embodiment of the present invention, using the system 100 of specific specialized desktop software (further described below with respect to FIG. 3B, 4B and 5B), this software is possible the collection of a certain intent, with history or context of the customer interaction up to that point, is presented on those screens (their user interface). 1または複数の人間エージェント105は、入力を解釈し、適切な顧客意図、データ、またはこの両方を選択する。 One or more human agents 105 interprets the input, selects the appropriate customer intent, data, or both.

電話対話の場合、人間エージェント105は、ヘッドホンを装着し、iルータ101の指示で電話サーバ102からストリーミングされるサウンドクリップ(「発話」)を聞く。 In the case of the telephone conversation, the human agent 105, the headphone is attached, listen to the sound clip ( "speech") to be streamed from the phone server 102 at the direction of i router 101. 本発明の一態様によれば、単一の人間エージェント105が顧客103に関するトランザクション全体を扱うことにはならない。 According to one aspect of the present invention, a single human agent 105 is not to treat the entire transaction for the customer 103. そうではなく、人間エージェント105は、顧客103の発話を人間によって解釈することが必要であるものとしてワークフローデザイナによって指定された、トランザクションのいくつかの部分を扱う。 Rather, the human agent 105 is specified by the workflow designer utterances customer 103 as it is necessary to interpret by humans, it deals with some portion of the transaction. iルータ101は、同じ顧客103対話を任意の数の人間エージェント105に送ることができ、所与の対話の一部を多くの異なる人間エージェント105に分配することができる。 i router 101, the same customer 103 dialogue can be sent to any number of human agents 105 may be distributed to many parts of a given interaction of different human agent 105.

本発明の例示的な実施形態によれば、人間エージェント105はオフサイト(Off site)であることが好ましい。 According to an exemplary embodiment of the present invention, it is preferable human agent 105 is off-site (Off site). さらに、人間エージェント105は、インド、フィリピンおよびメキシコなど、世界の種々の地理エリアに存在してよい。 In addition, the human agent 105, India, the Philippines and Mexico, may be present in a variety of geographic areas of the world. 人間エージェント105は、建物内で集団になっていてもよく、または自宅から作業していてもよい。 Human agent 105 may be made to the population in a building, or may be working from home. 年中無休の人間エージェントサポートを必要とする適用例では、各人間エージェント105が適切な業務時間中に作業できるように、人間エージェント105を世界中に配置することができる。 In applications that require human agent support 24/7 can be the human agent 105 to be able to work in a suitable business hours, to place the human agent 105 in the world.

本発明の対話式応答システム100は、カスタム人間エージェントアプリケーションソフトウェアを利用する。 Interactive response system 100 of the present invention utilizes a custom human agent application software. 人間エージェント105は、Javaで開発され標準的なコールセンタコンピュータネットワークのワークステーション上で実行される、カスタムアプリケーションを使用する。 Human agent 105 is running on the workstation of a standard call center computer network developed in Java, using a custom application. 概して言えば、対話式応答システム100は、顧客103の入力の解釈に向かう人間の知能を、「意図」(顧客が何を欲するか)およびデータ(顧客が何を欲するかを決定するのに必要な任意のデータ)に適用する。 Generally speaking, interactive response system 100, the interpretation human intelligence towards the input of the customer 103, "intention" (or the customer wants to do) and data (necessary to determine whether the customer wants to do applied to such arbitrary data). 解釈は通常、この例示的な実施形態では、何が言われたかについての最も正しい解釈を選択肢のリストから選択することを含む。 Interpretation is generally in the exemplary embodiment includes selecting what is the most correct interpretation of whether said from a list of choices. 代替の一実施形態では、コンピュータ支援型データ入力(例えば、テキスト入力またはEメールアドレス入力のオートコンプリート)が、エージェント処理と共に使用される。 In an alternative embodiment, the computer-assisted data entry (e.g., auto-complete text input or E-mail address input) is used with an agent process.

オフザシェルフコンポーネントである本発明のワークフローサーバ106は、対話ルータによって使用されるワークフローのアーカイブである。 Workflow server 106 of the present invention that are off-the-shelf components, the archive of the workflow used by interactive router. ワークフローサーバ106は、一実施形態では、標準的なサーバオペレーティングシステムを実行する市販のプロセッサを使用して、オフザシェルフハードウェアによって構築され、この例示的な実施形態では、ワークフロードキュメントはXMLで書かれる。 Workflow server 106, in one embodiment, using a commercially available processor to perform standard server operating system, built with off-the-shelf hardware, in this exemplary embodiment, the workflow document is written in XML . ワークフローサーバ106は、iルータ101の挙動を統制する業務規則のまとまりを維持する。 Workflow server 106 maintains a collection of business rules governing the behavior of the i router 101.

対話式応答システム100は、ワークフローを策定するためにビジネス分析者またはプロセス技術者によって使用されるワークフローデザイナを利用する。 Interactive response system 100 utilizes the workflow designer for use by a business analyst or process engineer to develop a workflow. ワークフローは、音声認識とのまたは人間エージェントとの所与の対話においてiルータ101が従うマップとしての働きをする。 Workflow serves as a map i router 101 is followed in the given interaction with or human agent with speech recognition. ワークフローは、顧客入力に応答して、ワークフロー中の経路に沿ってiルータ101の「舵をとる」。 Workflow, in response to customer input, "take the helm" of i router 101 along the path in the workflow. ワークフロー中の場所は、その時点までに収集されたデータと共に、「コンテキスト」と呼ばれる。 Location in the workflow, along with data collected up to that point, referred to as the "context".

ワークフローデザイナは、人間エージェント105の意図解釈をガイドするために、人間エージェント105に対する命令をワークフローに構築する。 Workflow Designer, to guide the intended interpretation of the human agents 105, build instructions for human agent 105 to the workflow. ワークフローデザイナは、XMLドキュメントの構築に焦点を合わせるようにカスタマイズされたEclipse(登録商標)ソフトウェア開発環境のバージョンを含んでよい。 The workflow designer may include a customized version of the Eclipse (TM) software development environment to focus on the construction of XML documents. しかし、本明細書を検討した後には、当業者ならワークフローデザイナを開発できるであろう。 However, after review of the present specification, it will be able to develop a workflow designer of ordinary skill in the art.

本発明の、性能および対話アーカイブ107は、任意の一般的なコンピュータサーバハードウェア上で維持できるデータベースを含む。 Of the present invention, the performance and interaction archive 107 includes a database that can be maintained on any common computer server hardware. 性能および対話アーカイブ107は、顧客103とのシステムトランザクションのアーカイブデータ(すなわち、顧客103との対話からのサウンドクリップ、Eメール、チャットなどのリポジトリ)と、人間エージェント105についての性能データとの、両方を含む。 Performance and interactive archive 107, the archive data of the system transaction with the customer 103 (ie, sound clips from the interaction with the customer 103, E-mail, repositories such as chat) and, with the performance data for the human agent 105, both including.

この例示的な実施形態は、対話のグループに関する統計を生成するために、または人間エージェント105の性能ランキングを表示するために、「リポータ」ソフトウェアを利用する。 The exemplary embodiment, in order to generate statistics for a group conversation, or to view the performance ranking of human agents 105, utilize a "reporter" software. リポータソフトウェアはまた、対話アーカイブ107に記憶された顧客103のコンタクトを構成したサウンドクリップ、Eメール、またはチャットテキストから、顧客103との対話を再構築することができる。 Reporter software also, sound clips you have configured the contact of the customer 103, which is stored in the interactive archive 107, from the E-mail or chat text, it is possible to reconstruct the dialogue with the customer 103. リポータソフトウェアは、一連の単純なスクリプトであり、任意の一般的なサーバハードウェア上で実行されてよい。 Reporter software is a series of simple scripts may be run on any general server hardware.

この例示的な実施形態はまた、マネージャ/管理者ソフトウェアも含み、このマネージャ/管理者ソフトウェアは通常、リポータソフトウェアと同じステーションから実行される。 This exemplary embodiment also includes manager / administrator software, the manager / administrator software is typically executed from the same station as the reporter software. マネージャ/管理者ソフトウェアは、対話式応答システム100についての動作パラメータを設定する。 Manager / administrator software sets the operating parameters of the interactive response system 100. このような動作パラメータは、負荷平衡、ワークフロー中の変更のアップロード、および他の管理変更のための、業務規則を含むが、これらに限定されない。 Such operating parameters, load balancing, upload changes in the workflow, and for other administrative changes, including business rules, without limitation. 特定の一実施形態では、マネージャ/管理者ソフトウェアは、標準的なコールセンタコンピュータワークステーション上で実行される小さいカスタムJava(登録商標)アプリケーションである。 In one particular embodiment, the manager / administrator software is a small custom Java (registered trademark) application that runs on a standard call center on a computer workstation.

サポートシステム108は、顧客103の要求に応答する際に利用できる多くのデータベースおよび顧客プロプライエタリシステム(Nuance(登録商標)などのオフザシェルフ自動音声認識(ASR)ソフトウェアも含む)からなる。 Support system 108 is comprised of a number of databases and customer proprietary system can use to respond to customer requests 103 (Nuance (R) off-the-shelf automatic speech recognition, such as (ASR) software included). 例えば、サポートシステム108は、顧客情報または知識ベースのためのデータベースを含んでよい。 For example, the support system 108 may include a database for customer information or knowledge base. 音声認識ソフトウェアは、この例示的な実施形態では、顧客103の発話を解釈するのに使用されるオフザシェルフコンポーネントである。 Speech recognition software in the exemplary embodiment, is off-the-shelf components that are used to interpret the speech of the customer 103. サポートシステム108はまた、テキスト−音声機能も含んでよく、これはしばしば、顧客103に対してテキストを読み上げるオフザシェルフソフトウェアである。 Support system 108 also includes a text - may also include audio capabilities, which is often off-the-shelf software to read text to the customer 103.

本発明の会社エージェント109は、ワークフローが問い合わせをする、顧客103要求を扱う人間エージェントからなる。 Company agent 109 of the present invention, the workflow to the inquiry, consisting of a human agent to handle the customer 103 request. 例えば、顧客103が会社のことで援助を得ようと意図しており、外部委託された人間エージェント105がこの意図を識別した場合、ワークフローは、電話を会社エージェント109に転送するよう、対話式応答システム100に指示することができる。 For example, a customer 103 is intended to be obtained to aid in a company, if the human agent 105 outsourced has identified this intent, workflow, to transfer the call to the company agent 109, interactive response You can instruct the system 100.

対話式応答システム100の要素は、この例示的な実施形態ではTCP/IPネットワークを介して通信する。 Elements of the interactive response system 100, in the exemplary embodiment communicates via a TCP / IP network. 通信は、iルータ101が従うワークフローによって駆動される。 Communication, i router 101 is driven by the workflow according. この実施形態における「データベース」は、フラットファイルデータベース、関係データベース、オブジェクトデータベースまたはこれらの任意の組合せとすることができる。 "Database" in this embodiment may be a flat file database, relational database, an object database or any combination thereof.

次に図2から図5に移るが、これらの図は、顧客が電話を介して対話式応答システム100と対話するときに、どのように対話式応答システム100によって情報が取り出され処理されるかについての例を示す。 Then either Turning to FIGS. 2-5, these figures, the customer when interacting with the interactive response system 100 through a telephone, information how the interactive response system 100 is processed retrieved It shows an example of a for. 図2に示す例は、必要な全てのハードウェア、ソフトウェア、ネットワーキングおよびシステム統合が完全であること、並びに、ビジネス分析者がグラフィックワークフローデザイナを使用して顧客対話における可能性あるステップを策定済みであることを前提とする。 Example shown in FIG. 2, all the necessary hardware, software, and networking and system integration is complete, and, in pre-formulated steps business analyst is possible in the customer conversation using graphical Workflow Designer based on the premise that there is. ビジネス分析者はまた、対話式応答システムが顧客103に対して言うかもしれないどんなことについても、テキストを作成済みである。 Business analyst is also, for what that interactive response system might say to the customer 103, have already created a text. これらは、最初のプロンプト(例えば「お電話ありがとうございます。今日はどんなご用件ですか?」)、顧客への応答、追加情報の要求、「口ごもる音声」(iルータ101が応答を決定している間に顧客に送られる音)および締めくくりの言葉を含むが、これらに限定されない。 These are, first prompt (for example, "Thank you for your phone. What Is your business? Today"), the response to the customer, request for additional information, "stammer voice" (i router 101 determines the response including sound) and conclude words are sent to the customer during and are not limited thereto. テキスト−音声ソフトウェアまたはボイスタレントのいずれかが、ビジネス分析者によって書かれたサーバ側音声のそれぞれを録音する。 Text - any of the voice software or voice talent, to record each of the server-side speech written by the business analyst. このワークフローは、対話式応答システム100にロードされ、そこでiルータ101によって利用可能である。 This workflow is loaded into the interactive response system 100, where it is available by i router 101.

ブロック201に示すように、対話は、顧客103が会社の顧客サービス電話番号に電話することで開始する。 As shown in block 201, dialogue begins with the customer 103 call to a customer service telephone number of the company. 対話プラットフォーム102(この場合は電話サーバ)が、電話に応じ、ブロック202に示すように、(1)発信者のANI/DNIS情報、または(2)他の業務規則(例えば、電話が入来した回線または中継線)のいずれかに基づいて、ワークフローデータベースに記憶された適切なワークフローを取り出す。 Interactive platform 102 (in this case, the telephone server), depending on the telephone, as shown in block 202, (1) caller ANI / DNIS information or (2) other business rules (e.g., telephone and incoming based on either the line or trunk line), take out the appropriate workflow stored in the workflow database. 電話サーバは、ブロック203に示すように適切なウェルカムプロンプトを再生し、顧客はこのプロンプトに応答する(ブロック204)。 Telephony server, as shown in block 203 plays the appropriate welcome prompt the customer responds to the prompt (block 204).

例えば、架空の航空会社であるインターエアが、本発明のコールセンタ実施形態による対話式応答システムを介して顧客サービスを提供する。 For example, Inter air is fictitious airlines, providing customer service via an interactive response system according to the call center embodiment of the present invention. 従って、対話プラットフォーム102は電話インタフェースであり、iルータ101は、インターエアにふさわしいワークフローを選択する。 Therefore, interactive platform 102 is a telephone interface, i router 101 selects a workflow appropriate for inter air.

図3Aの例証的なワークフローに、ワークフロー中の第1のポイントまたはコンテキストを示す。 The exemplary workflow of FIG. 3A, illustrates a first point or context in the workflow. 顧客発話はなく、従って、キャプチャすべき(かつ応答すべき)意図またはデータはない。 No customer utterances, therefore, to be captured (and to respond) intended or data is not. 唯一の応答は、挨拶、および顧客入力を求めるプロンプトである。 The only response is a prompt greeting, and customer input.

処理は図2のフローチャート中のボックス204に進む。 Processing proceeds to box 204 in the flowchart of FIG. 電話サーバは、顧客の口頭入力をディジタル化するのを開始し、iルータに接続する。 Telephone server starts to digitize the oral input of customers, to connect to the i router. この時点で、ワークフローまたは業務規則は、顧客に対する対話式応答を人間エージェントによって扱う必要があるのか音声認識ソフトウェアによって扱う必要があるのかを決定する。 At this point, workflow or business rules to determine whether there is a need to handle interactive responses by need to do speech recognition software to handle by a human agent to customers. すなわち、iルータは、電話のための適切なワークフローをワークフローリポジトリから選択し、ワークフロー規則に従って顧客との会話を行う。 That, i router selects an appropriate workflow for telephony from the workflow repository, a conversation with the customer according to the workflow rules.

顧客の言葉を解釈するために、iルータ101は適宜、ブロック205に示すように、サポートシステムからのASRを使用するか、または顧客のオーディオをコンタクトセンタ中の人間エージェント105にストリーミングさせる。 To interpret the language of the customer, i router 101 appropriately, as shown in block 205, use the ASR from the support system, or an audio client is streamed to a human agent 105 in the contact center. 人間エージェント105がワークフローによって必要とされる場合は、iルータ101は、ブロック207に示すように、負荷平衡アルゴリズムを適用することによって、利用可能な人間エージェントを識別し、彼らの画面上でポップアップをトリガし(図3Bの、最初は空のポップアップ画面に示すように)、いくつかの選択可能な意図オプションを提示し、識別された人間エージェントに顧客オーディオをストリーミングし始める。 If a human agent 105 is required by the workflow, i router 101, as shown in block 207, by applying a load balancing algorithm to identify the human agent available, a pop-up at their screen triggered (in FIG. 3B, first, as shown in empty pop-up screen), presents some selectable intent options begin streaming client audio to the identified human agent. 本開示が与えられれば当業者なら思いつくであろうが、この負荷平衡は、様々な時点で、様々な要因のいずれかに基づいて、発話を解釈するためのより多いかまたは少ない人間エージェントを識別することを含む。 As will present disclosure occur to those skilled in the art when given, this load balancing is at different time points, based on any of a variety of factors, identifying more or less human agent to interpret the speech including that. ブロック210および211に示すように、人間エージェントは、顧客の発話をヘッドホンで聞き、コンピュータソフトウェアが発話の解釈を促す。 As shown in blocks 210 and 211, the human agent, listening to the speech of the customer with headphones, computer software prompts the interpretation of the utterance.

図4Aの例示的なワークフローによれば、1または複数の人間エージェントが聞く顧客発話は、「今日の午後のシカゴからロンドンへの自分のフライトを確認したい。」である。 According to an exemplary workflow of FIG. 4A, the customer speech in which one or more of the human agent hear is "I want to check their flight to London from the afternoon of Chicago today.". 図4Bに示すように、エージェントの画面は、現在のコンテキスト(またはワークフロー中のポイント)を示す。 As shown in FIG. 4B, the agent screen indicates the current context (or point in the workflow). この例証的なスクリーンショットでは、人間エージェントが選択できる、可能性ある要求(回答不能および終了を含む)が12個ある。 In the exemplary screenshot, the human agent can be selected, (including answers impossible and terminated) potential request is twelve. 稼働時には、エージェントに利用可能な可能性ある解釈は数百個ある。 At the time of operation, the interpretation that there is a possibility available to the agent is several hundred. このように選択が多種多様であることで、解釈のフレキシビリティがエージェントに与えられ、これによりiルータは、解釈された意図に従ってそのワークフロー中で跳び回ることができる。 By thus selected are diverse, given flexibility agent interpretations, thereby i router can around jump in the workflow in accordance with the intended interpreted. 従って、本発明の一態様によれば、iルータは、顧客が途中で主題を変えたとしても、適切に応答することができる。 Thus, according to one aspect of the present invention, i router, the customer can be changed subject in the middle, to respond appropriately.

それぞれの場合に、各エージェントは、ワークフローの現在のコンテキストで顧客発話の最もふさわしい解釈であると感じるものを選択する。 In each case, each agent are selected which feels to be the most appropriate interpretation of customer speech in the current context of the workflow. 図4Bの例では、人間エージェントは、「CFT」(フライト時間の確認)を選択し、出発都市および到着都市(または、顧客が発話する可能性のある他の事前プログラム済み情報)を入力するかまたはドロップダウンメニューから選択する。 Or In the example of FIG. 4B, the human agent, select the "CFT" (Confirmation of flight time), to enter the departure city and arrival city (or other pre-programmed information that might customers to speech) or select it from the drop-down menu.

ブロック208および209では、人間エージェントは、任意の応答遅延を補償するために、ステーションで受け取られた顧客オーディオクリップに加速を適用することを決定できることに留意されたい(応答遅延は通常、アプリケーションセットアップにおける遅れ時間、すなわち、人間エージェントのデスクトップソフトウェアがストリーミングオーディオを受けて適切なワークフローを表示するのにかかることになる時間に起因する)。 In block 208 and 209, the human agent, in order to compensate for any response delay, it is noted that it decides to apply acceleration to the customer audio clip received by the station (the response delay is typically in the application setup delay time, ie, desktop software of the human agent is due to the time it takes to display the appropriate workflow in response to the streaming audio). ネットワークレイテンシは0.2秒前後である場合があり、アプリケーション遅延は、1+秒の範囲でより大きい可能性がある。 Might network latency is around 0.2 seconds, the application delay is greater than possible in a range of 1 + seconds. アプリケーション遅延を補償するために、対話式応答システムは、ボイスクリップを加速させる(ただし歪みが認識できるところまではしない)。 To compensate for the application delay, interactive response system (not until where can be recognized but distortion) to accelerate the voice clip. この目的は、顧客が応答を待つ間に目立った遅延を体験しないように、より「リアルタイムの」会話対話に向けて努力することである。 This object is achieved, so that it does not experience the delay by the customer stood out while waiting for a response, it is to work towards a more "real-time" conversation dialogue. 加速は、言葉が電話サーバから流れてくるのに伴ってその言葉に適用される。 Acceleration, the word is applied to the word with the coming flow from the telephone server. 加速は、リンク固有のレイテンシを克服することはできないが、加速により、人間エージェントは、どんなアプリケーションセットアップ時間も「回復」して、対話における遅れ時間の量を、理想的にはネットワーク中のレイテンシによって課される限度まで削減することができる。 Acceleration, it is not possible to overcome the link-specific latency, by the acceleration, the human agent, any application set-up time even if the "recovery", the amount of delay time in the dialogue, ideally by latency in the network it is possible to reduce up to the limit imposed. しかし、加速は任意選択であり、初心者のエージェントはよりゆっくりした再生を必要とすることがあるが、より経験を積んだエージェントは加速を適用することができる。 However, the acceleration is optional, but novice agent may require a playback more slowly, more experienced agent can be applied to the acceleration.

テスト213で、iルータは、顧客オーディオ解釈の精度をリアルタイムで評価し、各エージェントの速度/精度プロファイルを更新する。 In test 213, i router is to evaluate the accuracy of customer audio interpretation in real time, to update the speed / precision profile of each agent. ブロック214で、iルータは、解釈を処理してワークフロー中の次のステップ(例えば、入力データに基づくデータベース検索)を実施し、次に、電話サーバを介して適切な応答を顧客に転送する(218)(解釈が正確であると見なされる場合)。 At block 214, i router, the next step in the workflow process the interpreted (e.g., a database search based on the input data) is carried out and then transfers to the customer the appropriate response via the telephone server ( 218) (if the interpretation is considered to be accurate). 解釈が正確であるとiルータが判定した場合、iルータは、音声認識ソフトウェアの解釈に基づいて、または1若しくは複数の人間エージェントの応答にキーアルゴリズムを適用することによって、応答の再生を電話サーバから顧客に向けて送る。 If the interpretation is determined i router to be accurate, i router, based on the interpretation of the speech recognition software, or by 1 or applying the key algorithm to the response of a plurality of human agents, telephone server playing the response, from send towards the customer. この例では、応答は、図4Aの画面2の最後のブロックで与えられる。 In this example, the response is given by the last block of the screen 2 of Figure 4A.

精度を決定するために、iルータは、2人の人間エージェントの解釈を比較し、合意に達しない場合は、さらに解釈を求めて、第3の人間エージェントに対して顧客オーディオクリップを再生する(すなわち、「多数決規則」でどれが正確な応答かを決定する)。 To determine the accuracy, i router compares the interpretation of two people agent, if not agree further seeking interpretation, to play the customer audio clip for the third human agent ( in other words, how in the "majority rule" is to determine the correct response). 他の業務規則を使用して正確な解釈を決定してもよい。 Other business rules may determine the correct interpretation using. 例えば、最も良い精度スコアを有するエージェントからの解釈を選択することができる。 For example, it is possible to select the interpretation of the agent with the best accuracy score. あるいは、解釈のうちの1つを選択して顧客に対して再生することができ(「・・・と仰っていると理解しております」)、顧客の応答が、その解釈が正しかったかどうかを決定する。 Or, ( "we have to understand that saying and ...") is able to select one of the interpretation to play to the customer, whether or not the response of customers, its interpretation was correct to determine. さらに、既知のデータから解釈を選択することもできる(例えば、Eメールアドレスの2つの解釈を顧客Eメールアドレスのデータベースと比較することができる、クレジットカード番号の2つの解釈のうちの一方のみがチェックサムアルゴリズムをパスすることになる、など)。 Furthermore, it is also possible to select the interpretation from known data (for example, it is possible to compare the two interpretations of E-mail address to a database of customer E-mail address, only one of the two interpretations of the credit card number It will pass a checksum algorithm, etc.).

対話式応答システムは、ほぼ任意の数の人間エージェントが一度に同じ顧客対話を扱うことを可能にする。 Interactive response system makes it possible to handle almost any number of human agent of the same customer interaction at a time. 即ち、対話式応答システムは、忙しい時間中は2人のエージェントが聞くようにすることができ、または、より暇な時間中は7人の人間エージェントが聞くようにすることができる。 In other words, the interactive response system, during the busy time can be like two agents hear, or, in more spare time can be made to hear the seven human agents. さらに、電話の量が多い時間中は、「二重チェック」規則をなくすことによって精度を低下させて速い応答時間を維持することができる。 Further, in the amount of phone many times, it is possible to maintain a fast response time by reducing the accuracy by eliminating the "double check" rule. エージェントの速度/精度プロファイルに基づいて高い信用ランクが割り当てられたエージェントには、二重チェックなしで作業するよう求めることができる。 The agent is high credit rank was assigned based on the agent speed / accuracy profile can be determined to work without double check. より素早いシステム可用性に対して精度をトレードオフすることに加えて、オーディオクリップの途切れのない流れが各エージェントに流れており、それにより人間エージェントの「怠け」時間が低減される。 In addition to trade off accuracy against quicker system availability, there is no flow seamless audio clip is flowing to each agent, thus "lazy" time of the human agent is reduced.

図2のフローチャートに戻り、ブロック204に見られるように顧客が再び応答することになるか、ブロック215に示されるように、電話が転送されることになるか(ワークフロー中のステップによって若しくは業務規則によってそのように指示された場合)または顧客が電話を終了する。 Returning to the flowchart of FIG. 2, or the customer as seen in block 204 will respond again, as shown in block 215, the telephone is to be transferred or (or business rules by step in the workflow such case is instructed) or customer finishes the phone by. ブロック213で解釈が不正確であると見なされる場合は、iルータ101は、時間稼ぎ音声を顧客に対して再生し(ブロック216)、別の解釈を求めてオーディオクリップを追加の人間エージェントに送り(ブロック217)、その精度を再評価する。 If interpreted in block 213 is considered to be incorrect, i router 101 plays a hunter speech to the customer time (block 216), sends the audio clip to additional human agents seeking another interpretation (block 217), to re-evaluate its accuracy.

iルータは、ワークフローをそのガイドとして使用して、顧客との対話を電話完了まで管理する。 i router, using a workflow as its guide, to manage the interaction with the customer to phone complete. iルータは、電話の中の多くの時点で、解釈を求めて顧客発話を人間エージェントにストリーミングすることができる。 i router is, in many of the time in the phone, it is possible to stream the customer utterance to the human agent in search of interpretation. 電話が終結すると、顧客対話のスナップショットがアーカイブデータベースに保存される。 The phone will end, a snapshot of the customer interaction is stored in the archive database. 人間エージェントの速度/精度プロファイルは、常に更新され維持される。 Speed ​​/ accuracy profile of human agents are constantly updated and maintained.

顧客の要求を解釈するのに人間の介入が必要ない場合はブロック206および214に示すように、ASRがオーディオクリップを解釈し、iルータが適切な応答を決定する。 As shown in block 206 and 214 when to interpret the customer requests no human intervention is required, ASR interprets the audio clip, i router to determine an appropriate response.

インターエアの例を続けるが、図5Aに見られるように、キャプチャされた顧客発話は、2つの要求、すなわち食べ物および娯楽の問合せを有する。 While continuing the example of the inter air, as seen in FIG. 5A, the captured customer utterance has two requests, namely food and entertainment query. 本発明の別の態様によれば、人間エージェントは、2つの意図、すなわち食事および映画を捕える。 According to another aspect of the present invention, the human agent of the two intended, namely capture meals and movies. 入力すべき関連のあるデータはない。 Relevant data is not to be input. というのは、対話式応答システムは、図4Bで入力された前のデータ(このデータは図5Bで見える)から、フライト情報を既に知っているからである。 Because the interactive response system, before the data input in FIG. 4B (this data is visible in FIG. 5B) because the already knows the flight information. 図5Bに見られるように、人間エージェントは、可能性ある意図のオンスクリーン表示から「一般」および「食事」を入力する。 As seen in Figure 5B, the human agent to enter the "General" and "options" from the spirit of the on-screen display that possible. 人間エージェントはまた「映画」も入力する。 Human agent also "movie" is also input. 図5Aに見られるように、対話式応答システムは適切な応答を提供する。 As seen in Figure 5A, interactive response systems provide an appropriate response. 図5Bに見られるように、顧客が、「どんな食事が出ますか?」、「特別食はありますか?」、「映画の年齢制限はどの区分ですか?」など、食事または映画に関するさらに他の情報を要求した場合、適切な人間エージェント解釈オプションがコンピュータ画面上で突き止められる。 As can be seen in FIG. 5B, the customer is, "Do I get the kind of meal?", "Do you have any special diet?", Such as "Which division is the age limit of the movie?", Yet another about the meal or movie If you request the information, appropriate human agent interpretation option is ascertained on the computer screen.

図6は、顧客が電子メール(当技術分野で一般に知られているEメール)を介して対話するときに、どのように対話式応答システムによって情報が取り出され処理されるかについての例を示す。 Figure 6 shows an example of how the customer when interacting through (E-mail, which is generally known in the art) email, information by how interactive response system is being processed removed . ブロック601に示すように、対話は、顧客が会社の顧客サービスEメールアドレスにEメールを送ることで開始する。 As shown in block 601, dialogue, customer initiates by sending an E-mail to customer service E-mail address of the company. 対話プラットフォーム(この例示的な実施形態ではゲートウェイサーバ)が、Eメールを開き、602に示すように、(1)顧客のto/from情報と(2)他の業務規則とのいずれかに基づいて、ワークフローデータベースに記憶された適切なワークフローを取り出す。 Interactive platform (gateway server in this exemplary embodiment) to open the E-mail, as shown in 602, based on either (1) the customer to / from information and (2) other business rules retrieves the appropriate workflow stored in the workflow database. ゲートウェイサーバは、602に示すように、適切な応答承認を送る。 Gateway server, as shown in 602, and sends an appropriate response authorization. iルータ101は、ブロック603に示すように、負荷平衡アルゴリズムを適用することによって、Eメールを扱うための利用可能な人間エージェントを識別し、彼らの画面上でポップアップをトリガして解釈のための可能性ある意図を示し、1または複数の人間エージェントにEメールの内容を送る。 i router 101, as shown in block 603, by applying a load balancing algorithm to identify the human agent available to handle E-mail, for interpretation by triggering a pop-up on their screen potential indicates an intention to send the contents of the E-mail to one or more human agents. 人間エージェントは、ブロック604および605に示すように、Eメールを解釈する。 Human agent, as shown in block 604 and 605, interprets the E-mail. テスト606で、iルータ101は、顧客Eメール解釈の精度をリアルタイムで評価し、各エージェントの速度/精度プロファイルを更新するが、このテストの後、iルータ101は、解釈を処理し、それに従ってワークフロー中の次のステップを実施する。 In test 606, i router 101 evaluates the accuracy of customer E-mail interpretation in real time, but updates the speed / accuracy profiles for each agent, after this test, i router 101 processes the interpreted accordingly implementing the following steps in the workflow. 最終的に、iルータ101は、ブロック607に見られるように、ゲートウェイサーバを介して適切なEメール応答を顧客に転送する(解釈が正確であると見なされる場合)。 Finally (if interpretation is considered to be accurate), i router 101, as seen in block 607, via the gateway server forwards the appropriate E-mail response to the customer. ブロック608に示すように、Eメールは適切なデータベースにアーカイブされる。 As shown in block 608, E-mail is archived in the appropriate database. 解釈が不正確であると見なされる場合は、iルータ101は、別の解釈を求めてEメールを別の人間エージェントに送り(ブロック609)、その精度を再評価する。 If the interpretation is considered to be incorrect, i router 101, seeking another interpretation sending E-mail to another human agent (block 609), to re-evaluate its accuracy. iルータ101は、ワークフローをそのガイドとして使用して、顧客との対話をEメール応答まで管理する。 i router 101, using a workflow as its guide, to manage the interaction with customers to E-mail response.

図1〜図6に関する上記の対話式応答システムおよびそれを構成するプロセスに対する考察は、1または複数の音声認識および関連サブシステム108の動作を含む。 Study 1 to 6 with respect to the interactive response system and process that constitute it, including the operation of one or more speech recognition and related subsystems 108. IVRシステム100の実現には、実際、人間による対話の必要性を最小限に抑えるためにこのようなサブシステム108が顧客の発話のかなりの部分を認識できることが必要である。 The realization of the IVR system 100, in fact, such subsystems 108 in order to minimize the need for human by interaction it is necessary to be able to recognize a substantial portion of the utterance of the customer.

次に図7を参照すると、IVRシステム100の一部として、訓練サブシステム710が含まれる。 Referring now to FIG. 7, as part of the IVR system 100 includes a trained subsystem 710. 稼働時には、訓練サブシステム710は、サブシステム108中のリアルタイムASRに機械学習機能を選択的に提供して、新しいまたは変更された顧客対話に対してこれらが非常に素早く適応できるようにする。 During operation, the training subsystem 710, and selectively provide the machine learning function in real-time ASR in subsystem 108, so that they can adapt very quickly for new or changed customer interaction. 例えば、IVRシステム100が会社に対して最初にインストールされたとき、組込みASRの一般的な機能は、実際の顧客対話にはあまり使えないことがあり、特に、これらの対話が業界特有の用語を多く含む場合にはそうである(例えば、接地事故回路遮断装置を注文するために電話する電気工は通常、「GFCI」という頭字語を使用するであろうが、これを容易に認識するASRはほとんどないであろう)。 For example, when the IVR system 100 is first installed to the company, the general features of the built-in ASR is, may not work so much in the actual customer interaction, in particular, those of the dialogue of industry-specific terms so, if it contains many (for example, electrician is usually to call to order a ground fault circuit interrupter devices, will use the acronym "GFCI", but recognizes it easily ASR is it will be very little). 同様に、新しい提供物が利用可能になったとき、既存のASR機能は、前はうまくいっていたにもかかわらず障害を起こし始めることがある(例えば、過去の使用において「iPod(登録商標)」を正しく識別したASRが、「iPad(登録商標)」など似た名称の別の製品が導入されると障害を起こし始めることがある)。 Similarly, when the new offerings is available, the existing ASR function, before there is a thing that begins to cause despite failure that going well (for example, "iPod (registered trademark)" in the past of use correctly identified ASR is, it may begin to cause a failure if the "iPad (registered trademark)" another product of the name that is similar, such as is introduced). これらの変更は、ある適用例では頻繁でない場合があるが、他の適用例では定期的に発生する場合がある。 These changes, although it may not frequent in some applications, in other applications it may be generated periodically. 例えば、ロックコンサートのチケットを販売するための適用例は、バンド名に対する新しい顧客要求に定期的に適応することが必要になる。 For example, applications to sell tickets for a rock concert, it is necessary to regularly adapt to new customer requirements for the band name.

一実施形態では、訓練は、このような訓練に対する指示された必要性に基づいて行われる。 In one embodiment, training is performed based on the need instructed for such training. ASRの精度が容認性閾値よりも十分に高い既存のシステムの場合、訓練は、仮に行われるとしても、たまにしか行われない可能性がある。 For ASR accuracy of existing sufficiently higher than the acceptability threshold system, training, even if performed, it may be performed only occasionally. このような場合、訓練は、例えば、電話の量が極めて少ない期間中(この期間中は、IA105は通常なら比較的暇である)だけ行うことができる。 In this case, training, for example, (during this period, IA105 is relatively free time in the normal) in the amount of telephone is very small period can be carried out only. システムが新しい場合は、またはASRの成功が容認可能限度未満に下落しているときは常に、より多くの訓練が必要とされてよく、従って訓練サブシステム710はより頻繁にアクティブになる。 If the system is new, or whenever the success of ASR are falling below the acceptable limit may be require more training, thus training subsystem 710 is more frequently activated.

訓練サブシステム710の非リアルタイム訓練ASR711は、入力として、顧客の発話をiルータ101から受け取り、対応する意図をIA105から受信する。 Non-real-time training ASR711 training subsystem 710 as inputs, receives the speech customers from i router 101 receives the corresponding intent from IA105. 実際には、後述するように複数の訓練ASR711を使用することができる。 In fact, it is possible to use a plurality of training ASR711 as described below.

リアルタイム本番処理の場合と同様、非リアルタイム訓練のための処理は、ある実施形態では、単一のIAからの入力を含み、他の実施形態では、複数のIAからの入力を含む。 As in the case of real-time production process, the process for the non-real-time training, in certain embodiments, includes an input from a single IA, in other embodiments, including inputs from a plurality of IA. 異なるIAによって選択された意図の違いは、多大な追加の訓練を必要とする特に微妙な発話を示す可能性があるので、これらの違いは、ASRを訓練する際に非常に役立つ。 Differences intention selected by different IA, there is a possibility that exhibit particularly delicate utterances which require a great deal of additional training, these differences are very useful in training the ASR. 用件意図が、「はい」または「いいえ」などのごくわずかなオプションしかない小さい文法を有することができ、「はい」および「いいえ」における発話の事前パッケージ済みの理解がASRに付属しているような、最も単純な形では、訓練は、文法整調に使用できる統計モデルを構築することからなる場合がある。 Requirements intended, "Yes" or "No" can have a small grammar there is only a very small options such as, "Yes" and "No" prepackaged understanding of speech in is included with the ASR as, in its simplest form, the training may be comprised of constructing a statistical model that can be used for grammar pacing. より複雑な訓練では、言われる可能性のある発話の統計言語モデルを構築するために、領域知識を用いてASRの単語認識が援助される。 In more complex training to build a potential statistical language model of the utterance is said, word recognition of ASR is assisted by using the domain knowledge.

好ましい一実施形態では、IVRシステム100は、サポートシステム108中の複数の利用可能なリアルタイムASRを使用して実現される。 In one preferred embodiment, IVR system 100 is implemented using a plurality of available real-time ASR in support systems 108. 実際には、各ASRが強みと弱みを有することが見出され、特定エリアでの成功は、特定の状況でどのASRを使用するかを決定するためにiルータ101によって使用可能であり、また、特定の状況での訓練からどのASRが利益を受けることができるかを決定するために訓練サブシステム710によって使用可能である。 In practice, each ASR is found to have strengths and weaknesses, success in certain areas may be used by the i router 101 to determine what should be ASR in certain circumstances, also can be used by the training subsystem 710 to determine if it can be subjected to any ASR can benefit from training in certain situations. 現在利用可能なASRは、カーネギーメロン大学(Sphinx)、Nunance、Dragon、Loquendo(登録商標)、Lumenvox、AT&T(登録商標)、SRI International、Nexidia、Microsoft(登録商標)およびGoogle(登録商標)からのASRを含む。 Currently available ASR is, Carnegie Mellon University (Sphinx), Nunance, Dragon, Loquendo (registered trademark), Lumenvox, AT & T (registered trademark), SRI International, Nexidia, from the Microsoft (R) and Google (registered trademark) including the ASR. 厳選されたASRのみがコストなしで利用可能(例えばオープンソースライセンスの下で)なので、経済的な考慮事項により、サポートシステム108に含めるASRの数が制限される場合がある。 Only carefully selected ASR available without cost (e.g. under an open source license) Because, for economic considerations, there are cases where the number of ASR including support system 108 is limited. iルータ101は、いずれか特定のコンテキストでうまく機能すると予想されるASRに本番要求を選択的にルーティングすることができるので、かつ、訓練サブシステム710も同様に、リアルタイムASRをそれらの性能の予想される向上に基づいて選択的に訓練することができるので、相互にいくぶん直交する性能特性を有する1群のASRを選択するのがしばしば有利であろう。 i router 101, since the production request to ASR that are expected to work well with any specific context can be selectively routed, and, similarly trained subsystem 710, expected their performance real-time ASR it is possible to selectively trained to based on the improvement being, to select the ASR of 1 group having performance characteristics that mutually somewhat orthogonal would often advantageous. このようにすれば、あるASRが別のASRの弱みを埋め合わせることを期待することができる。 Thus, it can be expected that there ASR may compensate for weaknesses of the different ASR. 例えば、電話の言葉を処理するのに最適化されたASRは、ディクテーション機器からの言葉を対象に設計されたASRとはかなり異なる性能特性を有する場合がある。 For example, the optimized ASR to process words of the phone, may have significantly different performance characteristics than the ASR, which is designed for the words from the dictation device.

IVRシステム100で使用されるリアルタイムASRの精度を高めるために、訓練サブシステム710は、訓練ASR711の非リアルタイム動作に基づいて、受信した各発話の意味に特有の訓練をリアルタイムASRに提供することによって、機械学習を容易にする。 To increase the accuracy of the real-time ASR used in IVR system 100, the training subsystem 710, based on the non-real-time operation of the training ASR711, by providing specific training in real time ASR the meaning of each utterance received , to facilitate the machine learning.

一般に、ASRはいくつかの異なる態様で訓練される。 Generally, ASR is trained in several different aspects. 第1に、ASRは、オーディオストリーム、およびオーディオストリームの各部分を、話されている単語の認識に至るための助けになれる構成要素に分類できなければならない。 To a 1, ASR is each portion of the audio stream, and an audio stream must be classified into components become help to lead to recognition of the words being spoken. 通常、これは、「音(phone)」として知られる類似するサウンドクラスと、「ダイフォン(diphone)」として知られるサウンド移行または結合と、「セノン(senone)」と一般に呼ばれる、より複雑な場合のある波形部分とのセットを、オーディオストリーム内で識別することを伴う。 Typically, this is a sound similar classes known as "sound (phone)", and sound migration or binding known as "diphone (diphone)", "cyclohexenone (senone)" and commonly referred to, in the case of more complex a set of a certain waveform portion involves identified in the audio stream. 一般に、発話は、沈黙期間が検出される場所ではどこでも分割される。 In general, the utterance, the silence period is divided anywhere in the location to be detected. 発話フレーム(10ミリ秒の時間フレームなど)を分割して、この時間フレーム内でオーディオの様々な異なる特徴面(振幅および周波数が増加しているか、一定であるか、または減少しているかなど)を抽出することによって、発話から特徴が導出される。 By dividing the utterance frame (such as a time frame of 10 milliseconds), a variety of different features faces of audio within this time frame (or amplitude and frequency is increased, either constant or the like or has decreased) by extracting, features from the utterance is derived. カーネギーメロン大学から入手可能なSphinx ASRでは、39個の特徴が抽出されて、音声が「特徴ベクトル」として表される。 In Sphinx ASR available from Carnegie Mellon University, 39 features are extracted, the speech is represented as a "feature vector". 通常、ASRエンジンには、それらの認識が固定されるというこの側面が伴い、このようなシステムのユーザは、どの特徴が分析されるか、またはどのようにそれらが分析されるかを変更することはできない。 Usually, the ASR engine, with this aspect of their recognition are fixed, thus the user of a system, which features are analyzed, or how to change how they are analyzed can not.

ASRは、様々なモデルを使用して、生オーディオ波形から、発話に対応する単語の予測に進む。 ASR uses various models, from raw audio waveform, the process proceeds to the prediction of the word corresponding to the utterance. 音響モデルは、受信したセノンに対する最も確率の高い特徴/特徴ベクトルを決定する。 Acoustic model, determines the most probable feature / feature vector for senones received. 音声モデルは、音と単語をマッピングするが、単語は、固定辞書からくるものであるか、または、機械学習によって導出された語彙(若しくは「文法」)からくるものである。 Speech model is to map the sound and words, words, or those coming from the fixed dictionary, or one in which comes from the vocabulary that has been derived by machine learning (or "grammar"). 言語モデルは、前に認識された単語など、何らかのコンテキストに基づいて、候補単語選択肢を制限する。 The language model, such words are recognized before, based on some context, limiting the candidate word choices. ASRは通常、これらのモデルの組合せを使用して、どの単語が発話に対応するかを予測する。 ASR typically use a combination of these models to predict what word corresponds to the utterance. 以下で考察する実施形態における訓練の焦点は、後の2つのモデル、すなわち音声モデルおよび言語モデルだが、本明細書で対象とする概念は、音声認識で使用される他のモデルにも容易に適用することができる。 The focus of training in the embodiment discussed below, two models after, namely but speech models and language models, the concept of interest herein are readily applicable to other models to be used in speech recognition can do.

多くの場合、ASRの訓練は、前に認識された単語からのコンテキストを使用することによって、またはリアルタイムでない処理(すなわち、同じ顧客談話において後で認識された単語)のコンテキストを使用することによって、より効果的に達成することができる。 Often, by ASR training, by using the context of the recognized word before, or real-time non processing (i.e., the word which has been recognized later in the same customer discourse) use context, it can be more effectively achieved. このような訓練について以下に述べる。 Such training described below.

まず音声モデルに目を向け、「I would like to fly roundtrip between Boston and San Diego.(ボストンとサンディエゴの間を往復して飛びたい。)」というユーザ発話を考えてみる。 First turning to voice model, consider the user's utterance of "I would like to fly roundtrip between Boston and San Diego. (Want to fly back and forth between Boston and San Diego.)". 「オフザシェルフ」ASRは、これらの単語のいくつかを様々な話者にまたがって認識するのに、いくらか困難を有する場合がある。 "Off-the-shelf" ASR is, to recognize across some of these words to a variety of speakers, there is a case to have some difficulty. 例えば、単語「roundtrip」を発音する際、何人かの話者は、「d」と「t」の子音の音を1つの音に省略する(rountrip)ことがあるが、他の話者は、これらを別々に発音する(これらが2つの単語「round」と「trip」であるかのように)ことがある。 For example, when to pronounce the word "roundtrip", some of the speakers, sometimes abbreviated as "d" and consonant sounds of the "t" in one of the sound (rountrip), but the other speakers, Could these separately (these as two of the word "round" or a "trip") it is.

一実施形態では、訓練サブシステム710は、これらの問題の各々に対処することによって、非リアルタイム訓練ASR711に機械学習を提供する。 In one embodiment, the training subsystem 710, by addressing each of these issues, to provide a machine learning non-real-time training ASR711. まず、訓練サブシステム710は、発話が最初に受信されたときにIA105によって決定された、発話に対応する用件意味に基づいて、ターゲット語彙を選択する。 First, the training subsystem 710, speech is determined by IA105 when it is first received, based on the requirements meanings corresponding to the speech, selects the target vocabulary. この場合、IAは「新規予約」を用件意味として選択した可能性が高い。 In this case, IA is likely that you selected as the business means "new reservation". 単語「roundtrip」は、一般的な文法においては4万個の単語のうちの1つであったかもしれず、ごく低い統計発生率を有したかもしれないが、「新規予約」の意図に特有の文法においては、たった千個の単語のうちの1つかもしれず、はるかに高い統計発生率を有するかもしれない。 The word "roundtrip" in the general grammar Shirezu be was one of 40,000 words, might had a very low statistical incidence, the intention of the "new reservation" specific grammar in, it Shirezu be one of only thousands of words, may have a much higher statistical incidence. 従って、訓練サブシステム710は、特徴ベクトルがこの単語の標準化モデルからかなり逸脱するとしても、適用可能な文法を変更することによって、話されたこととして単語「roundtrip」を訓練ASR711が受諾する確率を大幅に上げる。 Thus, the training subsystem 710, even if the feature vector is considerably deviate from the standard model of the word by changing the applicable grammar, the probability of acceptance training ASR711 the word "roundtrip" as it was spoken significantly increase. さらに、「roundtrip」の追加の発話が「新規予約」の意図に関連付けられるようになるのに伴い、これらの発話は、「roundtrip」が話された既に認識済みのインスタンスの少なくともいくつかと、より近く合致することになる可能性が高い。 Further, as the additional speech "roundtrip" comes to be associated with the intent of "new reservation", these utterances, at least some of the previously recognized instance "roundtrip" is spoken, closer It is likely to be a match. 従って、時が経つにつれて、単語「roundtrip」が「新規予約」の意図の中で発生する可能性と、この単語の発音のばらつきとの両方が、以下の2つの結果につながることになる。 Thus, over time, the possibility that the word "roundtrip" occurs in the intent of "new reservation", both the variation in the pronunciation of the word will lead to the following two results. すなわち、(a)単語を認識する際の確実性がより高くなること(これは、「予約のキャンセル」の意図に関連する文法など、同じ単語を含む他の文法にも伝搬させることができる)、および、(b)単語が特定の意図にどれくらい頻繁に関連付けられるかに関する精緻化された統計によって、用件意図をよりよく予測できることである。 That, (a) the certainty in recognizing a word is higher (this is like the grammar associated with the intent of "Cancel reservation", can also be propagated to other grammars that contain the same word) , and that it can be predicted by refinement statistics, the business intent better regarding associated frequently much intention particular (b) word.

上述した発話の例に戻るが、早口の話者は、「Boston」と後続の単語「and」との間の区別を曖昧にして、全ての音をはっきり発音できないことがあり、それにより、訓練ASR711は、音「Bostonan」を分析しようとしていることがある。 Returning to the example of the speech mentioned above, twisters is the speaker, it may be to obscure the distinction between the "Boston" and the following of the word "and", can not be clearly pronounce all of the sound, thereby, training ASR711 is, there is that you are trying to analyze the sound "Bostonan". 同様に、都市名「San Diego」が、話者によっては、むしろ「Sandy A-go」のように聞こえるようにして発音されることがある。 Similarly, the city name "San Diego" is, by the speaker, it may be pronounced as sounds rather like "Sandy A-go". この場合もやはり、一般化された文法ではなく「新規予約」特有の文法を選択することで、「Boston」および「San Diego」の認識が信頼度を持って達成される統計的可能性が劇的に高まる可能性が高いことになる。 Again, not a generalized grammar by selecting the "new reservation" of specific grammatical, statistical possibility that the recognition of the "Boston" and "San Diego" is achieved with the reliability drama It would be likely to increase specific to. 一層の精緻化として、訓練サブシステム710は、ユーザ談話全体の発話の中を通る反復的パスを利用して、訓練をさらに一層改善する。 As further refinement, training subsystem 710 utilizes an iterative path through the inside of the entire user discourse utterance, further more improve the training. 上述の例では、その後、談話中に発信者は、文の最後に、訓練ASR711によって容易に認識されるようにして「Boston」と言うことがある。 In the above example, then, a caller in discourse, the last sentence, may be referred to as "Boston" so as to be easily recognized by trained ASR711. 「Boston」に関するこの話者の音響シグネチャが、ASRのマッピングに含められ、それにより、第2のパスでは、同じ話者の「Boston」発話は、前よりもよい「Boston」に対する合致と考えられることになる。 The speaker of the acoustic signature on "Boston" is included in the mapping of ASR, thereby, in the second pass, "Boston" utterances of the same speaker is considered to match for better than before "Boston" It will be. 同様に、話者は、2回目に、「San」と「Diego」との間でより区別を付けるようにして「San Diego」と言うことがあり、それにより反復的に認識を試みれば1回目の曖昧な発話がうまく認識される可能性がより高まることにつながる学習が提供される。 Similarly, the speaker, the second time, sometimes referred to as "San" and "San Diego" so as to give a more distinction between the "Diego", If you try repeatedly recognized by it 1 learning possibility of ambiguous utterances of times eyes it is well recognized that leads to a more enhanced it is provided. 長い顧客談話の場合、システムが認識できる単語を通して発信者の声特性がよりよく理解されるようになるので、複数の反復によって認識全体のかなりの改善に至ることができる。 For long customer discourse, because the system voice characteristics callers become better understood through a word to be recognized, can lead to significant improvement in the overall recognition by a plurality of iterations.

ここで図10も参照するが、一実施形態では、意図分析者による実際の認識時点を使用して、オーディオストリームが、認識のための別々の発話に分解される(例えば訓練ASR711によって)。 Here it 10 is also referenced, in one embodiment, using the actual recognition time by intention analyst, audio stream, (for example by training ASR711) to be decomposed into separate utterances for recognition. 具体的には、発話意図「I want to take a flight from」の認識時点(1001、1004)、データ部分「Boston」の認識時点(1002、1005)、およびデータ部分「San Diego」の認識時点(1003、1006)は全て、十分に異なり、従って、オーディオを認識のための別々の発話に分解するのを容易にするために、時間フレーム自体が使用可能である。 Specifically, speech intention "I want to take a flight from" recognition time (1001 and 1004), the recognition time of the data portion "Boston" recognition time point (1002, 1005), and a data portion "San Diego" ( 1003,1006) are all sufficiently different, therefore, in order to facilitate the decomposition into separate utterances for recognition audio, time frame itself can be used. 場合によっては、IAは、発話が完了する前(または後)に認識を提供することがあり(例えば、図10の1003に示すように、「San Diego」は、最後の「o」音の前にIAによって認識される)、従ってそのような場合は、時間フレームは、IAによって提供された認識の後(または前)の適切な休止で終わるように調節される。 Optionally, IA, it is possible to provide a recognition before (or after) the utterance is completed (e.g., as shown in 1003 of FIG. 10, "San Diego" is before the final "o" sound to) recognized by IA to, such a case therefore, the time frame is adjusted to end up at the appropriate pause after recognizing provided (or before) the IA. 可能性ある用件意図およびそれらを表すのに使用される典型的な単語の数は、意図認識文法を絞り込むのに使用可能であり、収集されるデータのタイプ(例えば都市名)は、データ認識文法を絞り込むのに使用可能である。 Potential requirements intended and typical number of words used to represent them, may be used to refine the intended recognition grammar, the type of data collected (e.g., city names), data recognition It can be used to refine the grammar.

言語モデルに移るが、訓練システム710はやはり、用件意図を利用して訓練を援助する。 Turning to the language model, training system 710 is still, to aid training using the business intention. 例えば、IAが「新規予約」の用件意図を示した場合、発話の中の単語「and」の少なくとも1つのインスタンスの前に1つの都市名がきて、後に別の都市名が続くことになる可能性が、統計的に非常に高いであろう。 For example, if the IA showed the business intent of the "new reservation", one of the city names came in front of at least one instance of the word in the speech "and", will be another city name is followed by possibilities will be statistically very high. 同様に、単語「from」または「to」が認識された場合、これらの単語の後に都市名が続く確率が統計的に非常に高いであろう。 Similarly, if the word "from" or "to" has been recognized, the probability that the city name is followed by these words would be statistically very high. 対照的に、IAによって決定された用件意図が「座席指定」である場合、これらの同じ単語「from」および「to」は、隣接する都市名と相関することはめったにないが、そうではなく、近くの数字と文字の対に相関するであろう(例えば「I would like to change from seat 39B to seat 11A.(座席39Bから座席11Aに変更したい。)」)。 In contrast, if the business intended, which is determined by the IA is "seat selection", these same words "from" and "to" is, but it is rarely correlated with the adjacent city name, not the case , it will be correlated to a pair of close to the numbers and letters (for example, "you want to change from I would like to change from seat 39B to seat 11A. (seat 39B in seat 11A.)").

このような言語モデル訓練はまた、ユーザの変化する言い回しに容易に適応することを可能にする。 Such language model training also allows to easily adapt to wording of varying user. 例えば、航空会社がイングランドへのサービスを開始した場合、航空会社は、同じ用件意図について、前に使用されていたのとは異なる言語を使用した要求を急に受け始めることがある。 For example, if the airline began service to England, the airline, for the same requirements intended, it may begin to receive suddenly the request using a different language than had been used before. 例えば、前の「I would like to fly roundtrip between Boston and San Diego.」の例は、英国人の顧客によって「I would like to book a return trip between Boston and London.」と話されるかもしれない。 For example, an example of "I would like to fly roundtrip between Boston and San Diego." The previous, might be told that "I would like to book a return trip between Boston and London." By British customers. 最初は、単語「book」は「新規予約」文法において高確率で現れないであろうが、この文法におけるこの単語の統計的使用は、追加の英国人顧客によってすぐに増加する。 At first, the word "book" is will not appear with high probability in the "new reservation" grammar, statistical use of this word in this grammar is immediately increased by the addition of British customers. 同様に、用語「return」の使用は、英国人顧客ベースの追加によって変化し、「新規予約」文法は、これを認識するように相応に調節される。 Similarly, the use of the term "return" is changed by the addition of British customer base, "new reservation" grammar is adjusted accordingly to recognize this.

訓練サブシステム710はまた、用件意図と、談話の中の隣接する認識された単語との組合せに基づいて、認識候補についての統計を調節する。 Training subsystem 710 also includes a business intent, based on a combination of the adjacent recognized word in the discourse, adjusting the statistics on recognition candidate. 用件意図が「新規予約」であると決定され、また、最初、ユーザの談話の中の1つの発話のみが、使用可能な信頼度レベルでは認識できないという例を考えてみる。 Requirements contemplated is determined to be "new reservation", also initially only one utterance in the user discourse is, consider the example can not be recognized by the available confidence level. 談話が都市名を1つだけ含んでいたと認識された場合、認識されなかった発話が別の都市名である確率が非常に高く、このシステムを使用する航空会社によって対応される都市名である確率はさらに高い。 If the discourse is recognized that contained only one city name, speech was not recognized that a very high probability of being different city names, is a city name to be associated by the airline to use this system probability is even higher. 文法内の候補単語に対する確率を変更して部分的認識を行うと、いくつかの候補単語がそれ以上の考慮からうまく切り捨てられることがあり、1つの候補(おそらく都市名)だけが、使用可能な確実度レベルになることがある。 When you change the probability for the candidate word in the grammar for partial recognition, there is that some of the candidate word is truncated successfully from further consideration, only one candidate (perhaps a city name), available it may become certainty level. この場合、機械学習は、この特定ユーザの都市の発音をASRのモデルに組み込み、それにより類似の発話の後続のインスタンスがより容易に認識されるようにする。 In this case, machine learning, embedded pronunciation cities this particular user to model the ASR, thereby to subsequent instances of similar utterances to be more easily recognized.

許容可能な用件意図ごとに別々の文法を維持することで、通常なら可能であるはずよりも迅速なASRの教授を訓練サブシステム710が提供するのが容易になる。 By maintaining separate grammar for each acceptable requirements intended training subsystem 710 is easier to provide a teaching of rapid ASR than should be possible would normally. 例えば、発話「book」、「notebook」および「Bucharest」には、強い音声上の類似性がある。 For example, the utterance "book", the "notebook" and "Bucharest" may similarities on strong speech. これらの意味のうちのどれがユーザの発話に対応するかの決定は、用件意図を考慮することによって大きく向上する。 The determination of which of these meanings correspond to the utterance of the user is improved greatly by taking into account the requirements contemplated. 例えば、用件意図が「遺失物取扱所」である場合は、「book」(その名詞の意味の)および「notebook」(「notebook computer」におけるような)は、他のコンテキストの場合よりもずっと高い可能性で現れるであろう。 For example, if business intent is "lost and found", "book" (the meaning of the noun) and "notebook" (as in "notebook computer") is much than in other contexts It will appear at a high possibility. 用件意図が「新規予約」である場合は、「book」(その動詞としての意味の)もまた、非常に高い可能性で現れるであろう。 If the business intention is "new reservation", "book" (the meaning of as a verb) will also appear with a very high potential. 同様に、用件意図が「新規予約」である場合は、「Bucharest」は、用件意図が例えば「座席選択」であった場合よりも、高い可能性で現れるであろう。 Similarly, if business intent is "new reservation", "Bucharest" than if requirements intended is, for example, a "seat selection" will appear at a high possibility.

訓練ASR711自体が十分に訓練された後は、用件意図と言語モデルとの間の相関を非常に頑強な方式で作り出すことができる。 After training ASR711 itself is sufficiently trained, it can be produced in a very robust manner a correlation between the requirements contemplated and language models. 例えば、似たように聞こえる単語のマッピングの例示的な一部は、次のとおりとすることができる。 For example, an exemplary portion of a word that sounds similar mapping can be as follows.

訓練ASR711は、サポートシステム108からのリアルタイムASRに勝る2つの利点を有するので、言語モデル統計を作り出すのに特によく適する。 Training ASR711 Since has two advantages over real-time ASR from the support system 108 particularly well suited for creating a language model statistics. 第1に、本番動作に使用されないので、リアルタイムで動作する必要はなく、従って、リアルタイム処理に使用されるだけの十分な素早さで認識を実施することが少なくとも比較的中程度のコンピューティングプラットフォーム上ではできないはずの、より複雑な認識アルゴリズムを利用することができる。 First, because it is not used in the production operation, it is not necessary to operate in real time, therefore, it is carried out recognize sufficient quickness of being used for real-time processing at least relatively moderate computing platform on in that should not be, it can be utilized more complex recognition algorithms. これにより、訓練ASR711は、サポートシステム108中のリアルタイムASRが認識できないであろう発話を認識することができる。 Thus, training ASR711 can realtime ASR in the support system 108 recognizes the speech that would not be recognized. 第2に、訓練ASR711は、顧客談話からの演繹的な情報だけでなく、帰納的な情報も利用することができる。 In the second, training ASR711 can be not only a priori information from the customer discourse, also a posteriori information to use. 従って、対話の中の全ての発話が分析されるまで待機し、次いで認識時に複数のパスをとることができ、おそらく、後の反復では、成功する可能性がより高くなる。 Therefore, waiting until all utterances in the dialogue is analyzed, then it is possible to take multiple paths during recognition, perhaps, in later iterations, the possibility of success is higher. 前述のように、「Bostonan」のように聞こえる最初のユーザ発話は、2回目の「Boston」の発話の後には、はるかに容易に認識することができる。 As described above, the first user utterance that sounds like a "Bostonan", after the utterance of "Boston" second can be recognized much easier.

訓練ASR711は、時の経過に伴って、関連する各用件意図と共に使用される言語要素に関係する一連の統計を構築する。 Training ASR711 is with the passage of time, to build a set of statistics relating to language elements that are used with each requirements intended relevant. 一実施形態では、複数の訓練ASR711が使用され、各訓練ASR711は統計全体に貢献する。 In one embodiment, a plurality of training ASR711 are used, each training ASR711 contributes to overall statistics. ある実施形態では、統計は認識に関する確実性の尺度を含み、この尺度は、単一の訓練ASR711による認識の複数のインスタンスに基づくか、複数の訓練ASR711間の一致に基づくか、又はこの両方に基づく。 In some embodiments, the statistics include a measure of certainty regarding the recognition, this measure is either based on a plurality of instances of recognition by a single training ASR711 be based on a match between the plurality of training ASR711, or both based.

このようにして作り出された統計は、サポートシステム108中のリアルタイムASRのいずれかによって使用可能である。 There was thus produced statistics can be used by any of the real-time ASR in support systems 108. サポートシステム中の、リアルタイム認識に使用できる種々のASRの各々は、通常、訓練のためのそれ自体のメカニズムと、どのように言語モデルを訓練のためにこのメカニズムに入力できるかに関する対応する仕様とを有する。 In the support system, each of the various ASR that can be used for real-time recognition, usually the corresponding specifications regarding the own mechanisms for training, how the language model can be entered into the mechanism for training having. 好ましい一実施形態では、訓練サブシステム710は、それが作り出す統計をサポートシステム108中のASRごとにフォーマットし、それにより、訓練サブシステム710によって生成された統計をこれらのASRの各々が利用できるようにする。 In one preferred embodiment, the training subsystem 710, it formats each ASR in the support system 108 statistics to produce, thereby to statistics produced by the training subsystem 710 available to each of these ASR to. 実際には、ASRは、それらが訓練のためにサポートするメカニズムにおいて大きく異なり、従って、訓練アルゴリズム712は、既存の各ASR、並びにサポートシステム108に追加される可能性のある新しい各ASRに適切な方式で、訓練データを収集し、フォーマットし、ASRに提供するように、容易に構成可能である。 In fact, ASR is that they differ greatly in mechanisms to support for training, thus, the training algorithm 712 suitable for each new ASR that may be added for each existing ASR, and the support system 108 in a manner to collect training data, formats, so as to provide the ASR, it can be easily configured. リアルタイムASRの性能は訓練に伴って向上するので、その認識の品質は、処理210、211でリアルタイムASRがIA105の機能に取って代わるのを可能にすることができる。 Since the performance of real-time ASR is improved with the training, the quality of the recognition, real-time ASR processing 210 and 211 can enable supplant the function of IA105.

訓練サブシステム710はまた、各ASRの機能と共に機能して、ASR訓練がIVRシステム100中での使用に最大限に活用されるのを確実にする。 Training subsystem 710 also functions with the function of each ASR, ASR training to ensure that is optimized for use in IVR system 100. 例えば、ASRは、センテンスツリーを使用するなどして、いつ十分な発話部分が統計分析の実施に使用可能と認識されるかについての閾値の決定をサポートすることができ、訓練アルゴリズム712は、訓練の進展を決定するためにこのような特徴に適合するように構成される。 For example, ASR is such as using sentence tree, when sufficient speech portion can support a threshold decision about what is recognized as usable in the practice of the statistical analysis, the training algorithm 712, training configured to determine the progress of to fit such features.

サポートシステム108中のリアルタイムASRは、異なる統計処理を必要とする2つの異なる方法で使用される。 Real-time ASR in the support system 108 is used in two different ways that require different statistical processing. 第1の方式では、これらは、対応する用件意図をIAが決定した後で、プロセスを認識するのに使用される。 In the first method, these, after the corresponding requirements intended IA has been determined, is used to identify the process. 例えば、1または複数のIA105が、発信者によって話された文についての用件意図として「新規予約」を選択する場合があり、これに基づいて、サポートシステム108中の1または複数のリアルタイムASRが、発信者によって話された特定の単語を認識しようとすることになる。 For example, one or more IA105 is, might choose the "New reservation" as requirements intended for the sentence spoken by the caller, based on this, one or more real-time ASR in support systems 108 , it will be trying to recognize certain words that were spoken by the caller.

第2の方式では、IAではなくリアルタイムASRを使用して用件意図が決定される。 In the second method, requirements intended are determined using a rather IA realtime ASR. これは、発信者によって話された特定の単語を決定するのとは異なる認識タスクである。 This is different recognition task and to determine the specific words spoken by the caller. 例えば、用件意図が「新規予約」である可能性があるか「座席要求」である可能性があるかを決定することは、「新規予約」に関する単語「から」および「まで」、並びに、「座席予約」に関する単語「通路側」および「窓側」など、各意図に特有の、可能性の高い少数のキーワードを認識することを伴うことがある。 For example, to determine requirements intent is potentially there could be "new reservation", "Seat request" relates "from" the word and "up", "new reservation", and, it may be accompanied by such and the words "aisle" about "seat reservation", "window side", specific to each intended to recognize likely a few keywords. サポートシステム108中のあるタイプのASRは、用件意図を決定することに、よりよく適する場合があり、別のタイプのASRは、その用件意図に基づいて単語を認識することに、よりよく適する場合がある。 Type of ASR with medium support system 108, to determine the requirements intent, there may be suitable better, another type of ASR is to recognize a word based on the requirements intended better it may be suitable. 一実施形態では、訓練サブシステム710によって提供される、リアルタイムASRごとの訓練統計のフォーマットは、リアルタイムASRが意図の決定に最適化されることになるか、または決定された意図に基づく単語認識に最適化されることになるかに基づいて、調節される。 In one embodiment, provided by the training subsystem 710, the format of the training statistics for real-time ASR is the word recognition based on intention realtime ASR Do would be optimized to determine the intent, or has been determined based on whether is to be optimized and adjusted.

訓練プロセスの一部は、機械学習がサポートシステム108中のリアルタイムASRに対してどれ位効果的であったかを決定することを含む。 Some of the training process includes machine learning to determine whether a how much effective for real-time ASR in support systems 108. これは妥当性検査と呼ばれる。 This is referred to as validation. 好ましい一実施形態では、妥当性検査は訓練サブシステム710によって実施される。 In one preferred embodiment, the validation is performed by the training subsystem 710. 代替的実施形態では、妥当性検査はiルータ101または専用の妥当性検査プロセッサ(図示せず)によって実施される。 In alternative embodiments, validation is carried out by i router 101 or a dedicated validation processor (not shown). 妥当性検査では、ASRを、相互と、およびIAと並列で動作させて、それらの性能がどれ位匹敵するかを決定する。 The validation, the ASR, is operated in parallel with each other, and the IA, to determine their performance is how much comparable. 各訓練インスタンスは、IAによって提供される用件意味ごとに文法使用の統計モデルおよび確率を作り出すのに使用される、より多くの情報を提供する。 Each training instance is used to create a statistical model and the probability of the grammar used for each business means provided by IA, to provide more information. 状況によっては、IAからの履歴データもまた、発話に対して利用可能な場合のある予期される自動化レベルを決定する。 In some circumstances, even the history data from the IA also determines the expected level of automation of the case available for the utterance. IAが、発話に対して複数の意味をいつも決まって提供する場合、ASRは、かなりのコンテキスト訓練が可能な場合にのみ使用可能となるであろう。 IA If the invariably by providing a plurality of meaning to the utterance, ASR will only become available if capable of substantial context training. 頑強なコンテキスト処理を有するASRは、そのような発話を正しく処理できるかもしれないが、コンテキスト的に強くないASRは、どれだけ多くの訓練が提供されるかにかかわらず、最低閾値を満たすことができないかもしれない。 ASR with robust context processing, might such a speech correctly processed, the contextually not strong ASR, regardless of how many training is provided, to meet the minimum threshold You may not be able to. 例えば、発話「IP」は、「インターネットプロトコル(Internet Protocol)」または「知的所有権(Intellectual Property)」を意味する可能性がある。 For example, the utterance "IP" is likely to mean "Internet Protocol (Internet Protocol)" or "Intellectual Property Rights (Intellectual Property)". 両方の意味が一般的である適用例で使用された場合、ASRが訓練後に2つの意味のうちのどちらが適切な意味かを導出できない限り、処理精度の誤りが予想されることになる。 If both meanings have been used in applications it is common, as long as the ASR is which of the two meanings can not be derived if suitable values ​​after training, so that the error processing accuracy is expected.

訓練が進むにつれて、リアルタイムASRの性能は向上する。 As the training progresses, the performance of real-time ASR is improved. IVRシステム100内でこのASRを特に使用する必要性を満たすほど統計的に安定した時点で、ASRは本番動作に配置される。 When the statistically stable enough to satisfy the need to particularly use this ASR in IVR system within 100, ASR is arranged in a production operation. 例えば、発話についての用件意味を決定するように意図されたASRは、その性能がIAの性能に達するほど十分に訓練された時点まで、非本番モードでIAと並列で動作することができ、十分に訓練されたとき、本番動作に切り替えられて、処理210、211におけるIAの負担が軽減される。 For example, it intended ASR to determine the requirements value for the speech may be its performance to the point that enough has been sufficiently trained to reach the performance of the IA, operates in parallel with the IA in a non-production mode, when fully trained, it is switched to a production operation, the burden of the IA in the process 210 and 211 is reduced.

典型的な一実施形態では、リアルタイム本番処理と訓練処理の両方で、2人のIAからの入力が2つのASRに提供されて、精度が高められる。 In one exemplary embodiment, both the training process and real-time production process, are provided inputs from two IA are two ASR, accuracy is enhanced. 同じユーザ談話における同じ発話についての2人のIAからの入力が異なる場合、ある実施形態では、発話は、意味の決定のために第3のIA(場合によってはIAの品質の程度に基づいて選択される)にサブミットされる。 Select the same when the input from two IA for the same utterance of the user discourse differ, in some embodiments, the speech, for the determination of the meaning by a third IA (if based on the degree of quality of IA is submitted to to).

妥当性検査を介して決定されるように、かつ環境の特質に基づいて決定されるように、ASRが一定閾値よりも高い精度レベルに達したとき、訓練処理は遷移する。 As determined through the validation and as determined based on the nature of the environment, when the ASR has reached a higher level of precision than a certain threshold value, the training process transitions. 例示的な一実施形態では、ASRは本番処理に使用されるが、訓練は前述のように継続する。 In an exemplary embodiment, the ASR may be used in the production process, the training continues as previously described. 求められるものがより厳しくない環境では、または利用可能なリソースがより少ない環境では、訓練は全て終わる。 In an environment that is required is less stringent, or in the available resources are less environment, training is over all. 第3の環境では、訓練は継続するが、優先順位が下がる(例えば、訓練処理は、一定量の利用可能な処理キャパシティがあるときにのみ、またはASRの性能が一定程度まで劣化したことがわかったときにのみ、行われる)。 In a third environment, the training continues, priority is lowered (e.g., training process, is that only when there is a certain amount of available processing capacity or ASR performance, is deteriorated to a certain degree only when it was found, is performed).

ある実施形態では、妥当性検査プロセッサが、ASRをテストしてそれらの性能レベルを決定するように構成される。 In some embodiments, validation processor is configured to determine their performance levels to test the ASR. 妥当性検査は、ある実施形態では、訓練段階の後に続き、他の実施形態では、訓練と同時に実施される。 Validation, in some embodiments, follows the training phase, in other embodiments, be performed simultaneously with the training. 妥当性検査からの結果に基づいて、iルータ101は、ASRおよびIAへのその発話割り当てを変更する。 Based on the results from the validation, i router 101 changes the speech assignment to ASR and IA. 例えば、ASRが用件意味の決定においてIAと比較して十分にうまく機能することがわかった場合、iルータ101は発話を、IAにルーティングするよりもはるかに頻繁にこのASRにルーティングする。 For example, if the ASR was found to work well well compared to IA in the determination of the requirements mean, i router 101 the speech routes much more frequently the ASR rather than routing to IA. 有利にも、このようなルーティングは非常に適応可能かつ構成可能である。 Advantageously, such routing is very adaptable and configurable. 図3〜図5に関して使用した例に従うと、iルータ101は、性能統計に基づいて、ウェルカムメッセージの直後の応答解釈にはIAの方を選ぶことができ(図4B)、映画または食事についての応答解釈には第1のASRの方を選ぶことができ(図5A)、座席指定や飛行機情報についての応答解釈には第2のASRの方を選んで、図5Bに示される他の選択肢を選択することができる。 According to the example used in connection with FIGS 5, i router 101, based on performance statistics, the response interpretation immediately following the welcome message can be selected towards the IA (FIG. 4B), the movie or meal the response interpretation can choose the direction of the first ASR (Fig. 5A), the response interpretation of the seat reservation and airplane information in favor of the second ASR, other alternatives shown in Figure 5B it can be selected. ある実施形態では、特定の解釈エリアごとに2つのASR(210、211におけるように)が選択されて、精度が保証される。 In one embodiment, (as in 210 and 211) is selected two ASR for each specific interpretation area, the accuracy is guaranteed. 両方のASRが同じ解釈を提供する場合は、対応する応答がユーザに提供される。 If both ASR provides the same interpretation, the corresponding response is provided to the user. ASRが異なる場合は、217におけるように、発話はIAに提供されて、判決を介して意味が選択される。 If ASR is different, as in 217, utterance are provided to IA, means is selected via the ruling.

結果として、人間IAは、ASRが適切に機能できない特定のときだけ必要とされ、処理は、業務基準に応じてIAの介入の後すぐにASRに戻ることができ、IAは顧客談話に接続されたままでいる必要はない。 As a result, human IA is ASR is required only when the particular not be properly function, the process immediately can return to ASR after IA intervention in accordance with the operational standards, IA is connected to the customer discourse it is not necessary to have to once in a while. 訓練がASRを向上させることができる場合、訓練は、IVRシステム100全体に対する多くの追加コストも他のオーバヘッドも課すことなく、ASRを向上させる。 If the training can improve ASR, training, without much additional cost other overhead also impose on the entire IVR system 100, to improve the ASR. 適切な自動応答がユーザに提供されるように、単一のユーザ発話を聞いてユーザの意味または意図を所定オプションのドロップダウンリストから選択すること以上には、人間の対話が関与する必要はない。 As appropriate automatic response is provided to the user, than selecting the meaning or intention of the user listening to a single user's utterance from the drop-down list of predetermined options need not human interaction is involved .

図8を参照すると、ASR訓練に関する例示的な処理フロー800が示されている。 Referring to FIG. 8, an exemplary process flow 800 relates ASR training is shown. ユーザ発話を含むディジタル化されたオーディオストリームが、1または複数のIA105に提供され(801)、また、図7に関して述べたように使用可能な意図応答をIAが提供できる場合は、オーディオストリームは訓練ASR711に提供される。 Digitized audio stream comprising a user utterance is provided to one or more of IA105 (801), In addition, when the available intended response as discussed with respect to FIG. 7 IA can provide the audio stream training It is provided to ASR711. 訓練ASR711がオーディオをそれに相当するテキストに変換するために発話を十分に認識(802)できない場合は、発話は廃棄され、訓練に使用されない。 If the training ASR711 can not be sufficiently recognized (802) the speech to converted into text can be evaluated to audio, speech is discarded and not used for training.

ASR711が発話を十分に認識(802)できる場合は、図7に関して上述したように、統計モデル/整調文法(例えば、IAによって提供された意味およびデータに対応する文法)が構築される(803)。 If ASR711 can be sufficiently recognized (802) the speech, as described above, the statistical model / pacing grammar (e.g., grammar corresponding to meaning and data provided by IA) is constructed with respect to FIG. 7 (803) . ASR711によって決定された、一定信頼度閾値未満である発話のいくつかについては、ASR711による意図またはデータの認識をIAが検証するための追加の検証ループを利用することができる。 Determined by ASR711, for some utterance is less than a predetermined confidence threshold, it is possible to take advantage of the additional verification loop for verifying IA is a recognition of the intent or data by ASR711. 認識が確認された場合は、処理は803について述べたように進むが、そうでない場合は、結果は廃棄される。 If the recognition is confirmed, the process proceeds as described for 803, otherwise, the result is discarded.

次に、訓練ASR711の性能が今や十分であるかどうか決定する(804)ためのテストが行われる。 Next, the performance of training ASR711 determines whether now well (804) test for is performed. 性能閾値は、適用例のクリティカル性に依存する場合がある。 Performance threshold may depend on the criticality of the application. ヘルスケア適用例は、例えば無料旅行者情報サービスがエラーに対して耐性を有するであろうよりもずっと、エラー耐性が低い場合がある。 Health care application example is, for example, far more than would be free traveler information services is resistant to error, there is a case in error tolerance is low. 性能閾値はまた、新しい単語または句が統計モデルに追加されるレートに依存する場合もある。 The performance threshold may also depend on the rate at which new words or phrases are added to the statistical model. 性能が十分でない場合は、処理は戻って、ディジタル化(801)でき追加の訓練に使用できるさらに他の発話に備える。 If performance is not sufficient, the process returns to prepare for yet another speech can be used to training added can digitize (801). 性能が十分である場合は、訓練の結果が適用されて、サポートシステム108のリアルタイムASRが、訓練から得られたモデルで構成され(805)、これらのリアルタイムASRは妥当性検査され、適切なら本番処理に使用される。 If performance is adequate, is applied the results of the training, the real-time ASR support system 108 is configured with resulting model obtained from the training (805), these real-time ASR is validated, if appropriate production It is used for processing.

ある実施形態では、次いで訓練は完了と見なされる。 In some embodiments, then the training is considered complete. ASRは、最初は暫定モードで、即ちIAのシャドーとして、オンラインにされる。 ASR is initially in an interim mode, ie as a shadow of IA, is on-line. ASRが、業務基準によって(例えば、ASRからの結果と1または複数のIAの結果とを比較することによって)決定されるように品質レベルを満たす場合は、ASRは、完全に本番で使用され始め、それにより処理210でIAに取って代わる。 ASR is, if it meets the business based on the quality level as determined (e.g., by comparing the results of the result and one or more of IA from ASR), ASR is beginning to be used in fully production , it replaces the IA with it by the processing 210. 同様に、第2のASRの性能が測定され、このASRが認識において十分な品質を生む場合は、オンラインにされて、処理211で第2のIAに取って代わる。 Similarly, the performance of the second ASR is measured, if this ASR breeds sufficient quality in recognition, are on-line, it replaces the second IA in process 211. 他の実施形態では、特定の環境によって決まる時点でさらにテスト806が行われて、ASRの性能が何らかの適用可能な最低閾値未満に下落したかどうか確認される。 In other embodiments, further been tested 806 when determined by specific circumstances, ASR performance is verified whether fell below some applicable minimum threshold. 下落した場合は、フローは追加の訓練のために801に戻る。 If you decline, the flow returns to 801 for additional training. 性能が容認可能である場合は、処理は806にループバックし、適切な時点でテストを繰り返す。 If performance is acceptable, the process loops back to 806 to repeat the tests at the appropriate time. 多くの試行の後でも性能が容認可能閾値に達しない場合は、ある実施形態では、訓練は放棄される。 If the performance even after many trials does not reach the acceptable threshold, in some embodiments, training is abandoned.

図9は、本明細書で参照されるコンピュータ/プロセッサのいずれかとして使用されるコンピュータ900の例を示す高レベルのブロック図である。 Figure 9 is a high level block diagram illustrating an example of a computer 900 that is used as either a computer / processor referred to herein. 図示されているのは、チップセット904に結合された少なくとも1つのプロセッサ902である。 Shown are at least one processor 902 coupled to a chipset 904. チップセット904は、メモリコントローラハブ920および入出力(I/O)コントローラハブ922を備える。 Chipset 904 includes a memory controller hub 920 and the input-output (I / O) controller hub 922. メモリコントローラハブ920にはメモリ906およびグラフィックスアダプタ912が結合され、グラフィックスアダプタ912には表示デバイス918が結合される。 The memory controller hub 920 is coupled memory 906 and graphics adapter 912, display device 918 to the graphics adapter 912 is coupled. I/Oコントローラハブ922には、記憶デバイス908、キーボード910、ポインティングデバイス914およびネットワークアダプタ916が結合される。 The I / O controller hub 922, storage device 908, a keyboard 910, pointing device 914 and network adapter 916 is coupled. コンピュータ900の他の実施形態は、異なるアーキテクチャを有する。 Other embodiments of the computer 900 may have different architectures. 例えば、ある実施形態では、メモリ906はプロセッサ902に直接に結合される。 For example, in some embodiments, memory 906 is coupled directly to the processor 902. ある実施形態では、キーボード910、グラフィックスアダプタ912、ポインティングデバイス914および表示デバイス918などのコンポーネントは、直接人間対話を必要としないある種のコンピュータ900(例えばある種のサーバコンピュータ)には使用されない。 In some embodiments, components such as a keyboard 910, a graphics adapter 912, a pointing device 914 and display device 918 is not used for certain computer 900 that do not require direct HIP (e.g. certain server computer).

記憶デバイス908は、ハードドライブ、CD−ROM、DVD、またはソリッドステートメモリデバイスなどのコンピュータ可読記憶媒体である。 Storage device 908 is a computer-readable storage medium of a hard drive, CD-ROM, DVD or the like solid-state memory devices. メモリ906は、プロセッサ902によって使用される命令およびデータを保持する。 Memory 906 holds instructions and data used by processor 902. ポインティングデバイス914は、マウス、トラックボールまたは他のタイプのポインティングデバイスであり、キーボード910と共に使用されてコンピュータシステム900にデータを入力する。 Pointing device 914, a mouse, a trackball, or other types of pointing devices are used in conjunction with keyboard 910 to input data to the computer system 900. グラフィックスアダプタ912は、表示デバイス918上に画像および他の情報を表示する。 Graphics adapter 912 displays images and other information on the display device 918. ネットワークアダプタ916は、コンピュータシステム900をインターネット1001に結合する。 Network adapter 916 couples the computer system 900 to the Internet 1001. コンピュータ900のある実施形態は、図9に示すものとは異なるコンポーネントおよび/またはそれ以外のコンポーネントを有する。 Certain embodiments of the computer 900 have different components and / or other components than those shown in FIG.

コンピュータ900は、本明細書に述べる機能を提供するためのコンピュータプログラムモジュールを実行するように適合される。 Computer 900 is adapted to execute computer program modules for providing the functions described herein. 本明細書において、用語「モジュール」とは、指定された機能を提供するのに使用されるコンピュータプログラム命令および他のロジックを指す。 As used herein, the term "module" refers to computer program instructions and other logic used to provide the specified functions. 従って、モジュールは、ハードウェア、ファームウェアおよび/またはソフトウェアにおいて実現することができる。 Thus, a module may be implemented in hardware, firmware and / or software. 一実施形態では、実行可能コンピュータプログラム命令で形成されるプログラムモジュールが、記憶デバイス908に記憶され、メモリ906にロードされ、プロセッサ902によって実行される。 In one embodiment, program modules formed by executable computer program instructions are stored in the storage device 908, loaded into the memory 906 and executed by the processor 902.

本明細書に述べるコンポーネントによって使用されるコンピュータ900のタイプは、実施形態、およびエンティティによって使用される処理力に応じて異なる。 Type of computer 900 used by the components described herein will vary depending on the processing power used by the embodiment, and entities. 例えば、顧客のコンピュータ103は通常、限られた処理力しか有さない。 For example, the customer's computer 103 usually have only a limited processing power. 対照的に、iルータ101は、本明細書に記載の機能を提供するために共に働く複数のサーバを含む場合がある。 In contrast, i router 101 may include a plurality of servers working together to provide the functionality described herein. ある適用例では、単一のプロセッサ(または1組のプロセッサ)が、サポートシステム108中のリアルタイムASRと、訓練サブシステム710の訓練ASR711および他の機能との、両方を実現することができる。 In some applications, a single processor (or set of processor), and real-time ASR in the support system 108, the training ASR711 and other features of the training sub-system 710, both can be realized. これらの適用例では、どれ位多くの訓練をいつ行うかを決定することで、比較的安価かつ適度に強力なコンピュータを、訓練と本番ASR処理との両方に使用することができる。 In these applications, by determining when performing any of a number of training, a relatively inexpensive and reasonably powerful computer, it can be used for both training and production ASR process.

前述のシステムおよび方法は、音声対話に適用可能であるだけでなく、実施形態によっては、例えばビデオ、テキスト、Eメール、チャット、写真および他の画像でも使用可能である。 The system and method described above is not only applicable to voice interaction, in some embodiments, for example, video, text, may also be used in E-mail, chat, photographs and other images. これら他の実施形態は、例えばオンラインチャット、セキュリティ監視、テーマパークコンシェルジュサービス、およびデバイスヘルプなどの適用例で使用可能である。 These other embodiments, for example online chat, security monitoring, can be used in applications such as theme park concierge services, and devices help. 具体的な例として、自由回答式の質問が前述のようにして解釈され処理されるヘルプ機構を、Apple,Inc. As a specific example, a help mechanism open question type is processed is interpreted in the manner described above, Apple, Inc. によって提供されるiPhone(登録商標)やiPadデバイスなどの消費者デバイスに提供することができる。 It can be provided to the consumer device, such as iPhone (registered trademark) and iPad devices provided by. 同様に、前述の技法を使用して、ビデオストリームおよび画像の認識を容易にすることもできる。 Similarly, it is also possible to use the above techniques to facilitate recognition of video streams and images.

以上の考察から明白なように、顧客対話の一部を処理するのに、HSRサブシステムよりもASRサブシステムの方が適切であることもある。 As apparent from the above discussion, to process a portion of the customer interaction, towards the ASR subsystem than HSR subsystem also be suitable. 可能な最良のユーザ体験を提供するためには、アプリケーションプログラム(ワークフローリポジトリ106に記憶されたもの等)が音声認識リソースを求める場合に、このような認識に使用されるリソースの選択(即ち、ASRまたはHSR、並びに現在の認識タスクに最もよく適する特定のASR/HSRリソースの選択)を最適化することによって、利益を達成することができる。 In order to provide the best user experience possible, when the application program (such as those stored in the workflow repository 106) obtains the speech recognition resources, selection of resources used for this recognition (i.e., ASR or HSR, and by optimizing the best suited selection of a particular ASR / HSR resources) to the current recognition task, it is possible to achieve the benefits.

図11を参照すると、適切な処理リソースのこのような選択を達成するためのASRプロキシ1102の動作のブロック図が示されている。 Referring to FIG. 11, a block diagram of the operation of the ASR proxy 1102 to achieve such selection of the appropriate processing resource is shown. より具体的には、以下に述べる機能は、様々な実施形態で、ボイス拡張可能マークアップ言語(VXML)ブラウザ内でのメディアリソース制御プロトコル(MRCP)におけるカプセル化と、ウェブサービスと、アプリケーションプログラミングインタフェース(API、例えばJavaまたはC#言語で書かれたもの)とのうちの、1または複数によって実現される。 More specifically, the functions described below, in various embodiments, the encapsulation in the media resource control protocol in the Voice Extensible Markup Language (VXML) in the browser (MRCP), and a web service application programming interface (API, such as those written in Java or C # language) and of, be implemented by one or more. 特定の一実施形態では、様々なベンダからの共通ASRが、VXMLプラットフォーム(ブラウザ)への標準インタフェースとしてMRCPを使用し、この環境では、ASRプロキシ1102は、VXMLプラットフォームと共に実行されるソフトウェアアプリケーション1101にとってはASRエンジンに見えるように構成されるが、そうではなく、ASRサブシステムとHSRサブシステムの両方からの音声認識リソースを提供することによって、VXMLアプリケーションと音声認識機能との間のプロキシとしての働きをする。 In one particular embodiment, the common ASR from various vendors, using MRCP as a standard interface to the VXML platform (browser), in this environment, ASR proxy 1102, taking the software application 1101 to be executed with VXML platform acts as a proxy between is configured to look ASR engine, not the case, by providing a speech recognition resources from both the ASR subsystem and HSR subsystem, VXML application and speech recognition do.

後でより詳細に述べるように、ASRプロキシ1102は、1または複数のASRサブシステム1104(サポートシステム108の考察に関して上述したものなど)またはHSRサブシステム1106(オフサイトエージェント105の考察に関して上述したものなど)を自由に選択するように構成される。 As discussed in more detail below, ASR proxy 1102 may include one or more (such as those described above with respect to discussion of the support system 108) ASR subsystem 1104 or HSR subsystem 1106 (as described above with respect to discussion of offsite agent 105 configured to select, etc.) freely. 統計のデータベースサブシステム1105に基づいて、ASRプロキシ1102は、認識決定エンジン1103(この動作については図12に関してさらに述べる)および結果決定エンジン1107(この動作については図13〜図16に関してさらに述べる)と通信して、いずれか特定の時点でどのASR/HSRリソース1104、1106を利用するかに関する決定を行う。 Based on a database subsystem 1105 statistics, ASR proxy 1102, a recognition decision engine 1103 (this is also discussed Figure 12 for operation) and the results determined engine 1107 (described further with respect to FIGS. 13 to 16 for this operation) communicate, make decisions about whether to use which ASR / HSR resources 1104, 1106 at a specific point in time either. いずれかのHSRリソースが使用のために選択された場合は、オフサイトエージェント105に関して上述したように、対応するユーザインタフェース情報が、適切なHSRデスクトップワークステーション1108に提供される。 Either HSR resource when it is selected for use, as described above with respect to off-site agent 105, the corresponding user interface information is provided to the appropriate HSR desktop workstation 1108.

ASRプロキシ1102は、発話がASRによって認識されるべきかまたはHSRによって認識されるべきかをソフトウェアアプリケーション1101の開発者が考慮する必要性を軽減する。 ASR proxy 1102, a should utterance is recognized by to or HSR is recognized by the ASR software application developers 1101 to reduce the need to consider. 従って、このようなソフトウェア開発者は、コンピュータで従来使用されてきたものよりも人間らしい音声ユーザインタフェースを構築する(かつその利用可能性を想定する)ことができる。 Accordingly, such software developers can build a human-like voice user interface than what has been conventionally used in a computer (and assuming the availability).

図11をより詳細に参照すると、様々な実施形態で、ソフトウェアアプリケーション1101は、様々な目的を果たす。 Referring to Figure 11 in greater detail, in various embodiments, the software application 1101, serve a variety of purposes. 一実施形態では、ソフトウェアアプリケーション1101は、フリーダイヤル発信者補助のためのIVRシステムであり、別の実施形態では、タブレットコンピュータ上の対話式ヘルプアプリケーションである。 In one embodiment, the software application 1101 is the IVR system for toll-free callers auxiliary, in another embodiment, is an interactive help application on the tablet computer. ソフトウェアアプリケーション1101は、何を認識すべきかをASRプロキシ1102に教える(すなわち文法をASRプロキシ1102に提供する)こと、並びに発話(通常は、.wavファイルなどのオーディオファイル、またはリアルタイムオーディオストリーム(例えばMRCPリアルタイムプロトコルストリーム))をそれに提供することによって、ASRプロキシ1102に指示する。 Software application 1101, what (providing i.e. grammar to ASR proxy 1102) whether to recognize teach ASR proxy 1102 that, as well as speech (typically, audio files such as .wav files or real-time audio stream (e.g. MRCP, by providing a real-time protocol stream)) thereto, it instructs the ASR proxy 1102. ASRプロキシ1102は、予想されるように、発話を正しく認識したというASRの信頼度を示す信頼度スコアと共に、認識したものの「テキスト」または意味で応答する。 ASR proxy 1102, as expected, with confidence score indicating a confidence level of ASR that correctly recognizes the utterance, responds with those recognized "text" or meaning.

ASRプロキシ1102は、従来のASRとは異なる機能を有することができるので、ASRプロキシ1102は、例えば統計および決定に関する文法メタタグ中にある追加情報を必要とする場合がある。 ASR proxy 1102, since the conventional ASR may have different functions, ASR proxy 1102, for example, may require additional information in the grammar meta tags on Statistical and decision. この追加情報は、プロンプトおよび文法を識別するための固有の方式、現セッションを識別するための固有の方式、「声」またはユーザを識別するための固有の方式(話者の音響モデルの学習を継続するため)、並びに、ASRプロキシ1102の挙動を指定するための閾値などである。 This additional information, specific method for identifying the prompt and grammar, specific method for identifying the current session, the learning of the specific system (speaker of the acoustic model to identify the "voice" or user to continue), as well, and the like threshold for specifying the behavior of the ASR proxy 1102. ある適用例では、文法は事前定義済みまたは組込みである。 In some applications, the grammar is a pre-defined or built-in. 他の適用例では、文法は組込みではなく、従って、文法に関係するメタ情報(エージェントの決定を枠組みにはめたりガイドしたりするためのユーザインタフェース情報など)が提供されて、可能性ある応答がよりよく定義される(例えばHSRサブシステムの場合)。 In other applications, the grammar is not embedded, therefore, are provided meta information related to grammar (such as user interface information for or guide or fit into the framework of the determination of the agent) is, the potential response is defined better (for example, in the case of HSR subsystem).

ソフトウェアアプリケーション1101が、発話を認識するようASRプロキシ1102に要求すると、ASRプロキシ1102は、処理を認識決定エンジン1103に渡す。 Software application 1101, and requests the ASR proxy 1102 to recognize speech, ASR proxy 1102 passes the process to the recognition decision engine 1103. 認識決定エンジン1103は、どのように発話を認識するかを決定することを担う。 Recognition decision engine 1103 is responsible for determining how to recognize speech. 例えば、ソフトウェアアプリケーション1101によって提供されるパラメータおよび信頼度閾値が、この決定に影響を及ぼすことがある。 For example, the parameters and the reliability threshold is provided by the software application 1101, it may affect the decision. 具体的な例として、極めて高い認識品質を適用例が必要とする場合、認識決定エンジン1103は、認識がHSRリソース1106のみによって達成されるよう指示することができる。 As a specific example, if required by the application of very high recognition quality, recognition decision engine 1103, recognized that it is possible to instruct that achieved by only HSR resource 1106. 他方、適用例はコストが最も重要だと考える場合もあり、その結果、デフォルトではASRリソース1104のみが使用されるよう指示して、HSRリソース1106の使用は、ASRを使用するとエラーが多くなる場合のみに取っておくこともできる。 On the other hand, application is also the cost considered the most important, so that the default is instructed to only ASR resource 1104 is used, the use of HSR resource 1106, if the error is increased by using the ASR it is also possible to set aside only.

一実施形態では、認識決定エンジン1103は、適用例の特定の要件を満たすように適切な閾値を変動させて、同様の決定を自動的かつ動的に行う。 In one embodiment, the recognition decision engine 1103, by varying the appropriate threshold to meet the specific requirements of the application, automatically and dynamically perform the same decision. 従って、資産の多い銀行顧客には、高い品質閾値を使用することができ、一方消費者からの公共料金支払いの問合せには、より低い容認可能閾値が与えられる。 Thus, the many bank customers of the asset, it is possible to use a high quality threshold, on the other hand to the inquiry of public payment from the consumer, given the lower acceptable threshold. この実施形態では、閾値は、過去の認識試行に基づいて計算された履歴統計に基づく。 In this embodiment, the threshold is based on the calculated historical statistics based on historical recognition attempts.

ASRリソースの使用とHSRリソースの使用との間で選択することによってだけでなく、このようなリソースの組合せを選択できるようにすることによっても、有益な結果が得られることがわかっている。 Not only by choosing between use of the use and HSR resources ASR resource, by also to select a combination of these resources, has been found that beneficial results. 例えば、あるパラメータセットは、複数のASRリソースによって認識されるように発話をサブミットすることによって最もよく満たされ、別のパラメータセットは、単一の特定ASRに発話をサブミットすることによって最もよく満たされ、さらに別のパラメータセットは、ASRリソースとHSRリソースの混合に発話をサブミットすることによって最もよく満たされる場合がある。 For example, a certain parameter set is best met by submitting the speech to be recognized by a plurality of ASR resource, another parameter set is best met by submitting the speech into a single specific ASR yet another parameter set may be best met by submitting the speech for mixing ASR resource and HSR resources. 実際には、ASRが訓練または整調された程度(例えば上記の訓練に関する考察のとおり)、ASRが特定の文法について妥当性検査されたかどうか、複数の認識経路のコストが容認可能かどうか、および履歴結果などの事柄は全て、いずれか特定の状況でどのリソースを適用するかを決定する際に役立つ。 In fact, ASR is (as Study example above training) training or paced extent, whether ASR is validated for a particular grammar, the cost of the plurality of recognition paths whether acceptable, and history all things such results can help in determining whether to apply what resources in any particular situation.

同様に、発話に関係するセキュリティメタタグも、最も適切な認識リソースを決定するのに役立つ。 Similarly, security metatags associated with the speech is also useful to determine the most appropriate recognition resource. 例えば、発話が社会保障番号であることを示すメタタグを、ASRリソースによって処理されるように送って、人物に関する個人情報を人間が入手する可能性を回避することができる。 For example, a meta tag that indicates that speech is social security number, sent to be processed by the ASR resource, human personal information about the person can be avoided the possibility to obtain.

ある実施形態で考慮される別のパラメータは、様々なシステムリソースのアクティビティのレベルである。 Another parameter to be considered in some embodiments, a level of activity of various system resources. 人間のスタッフに多量の要求が溜まっている場合、この未処理要求は、ASRリソースの使用を増加させることの方を選ぶためのパラメータとして使用可能である。 If the human staff large amount of requests are accumulated, the outstanding requests can be used as a parameter for choosing the direction of increasing the use of ASR resource.

ある実施形態では、同じタイプであろうと異なるタイプであろうと複数のリソースを使用して、結果の二重チェックが提供される。 In some embodiments, using a would be the same type as would a different type multiple resources, the results of a double check is provided.

さらに別の実施形態では、認識決定エンジン1103は、現在のオーディオストリームの長さを動的に把握しており、これを、対応する文法によって定義される予想される発話の長さと比較する。 In yet another embodiment, the recognition decision engine 1103 is dynamically grasped the length of the current audio stream, which is the length of the utterance to be expected is defined by the corresponding syntax and compared. 例えば、発話が、「赤(red)」、「緑(green)」、「青(blue)」の3色のうちの1つだけからなる文法を有すると予想され、実際の発話の長さが3秒である場合、発話が文法中の予想される単一音節の色のうちの1つでないという予期に基づいて、発話をASRリソースに認識させるという前の決定を変更し、ASRに加えてまたはASRに代えてHSRリソースに認識させることができる。 For example, speech, "red (red)", "Green (green)", is expected to have a grammar that consists of only one of the three colors of "blue (blue)", the length of the actual speech If it is 3 seconds, based on the expected that speech is not one of the colors of the single syllable expected in the grammar, to change the decision before that to recognize the utterance ASR resource, in addition to ASR or it can be recognized by the HSR resources instead of ASR. このような手法は、「意外な」発話を認識するための最終的な時間を最小限にし、従ってASRプロキシ1102の全体的な効率を高めることがわかっている。 Such an approach has been found to enhance the final time minimizing, thus overall efficiency of ASR proxy 1102 for recognizing an utterance "surprising".

上述したように、ASRプロキシ1102および対応するエンジン1103、1107の動作は、システムを個人化するための統計、閾値および他の固有情報を広く利用して、ソフトウェアアプリケーション1101のニーズに対応する。 As described above, the operation of the ASR proxy 1102 and corresponding engine 1103,1107 is statistics for personalizing the system, and extensive use of thresholds and other specific information, to meet the needs of software applications 1101. この情報は、図11に示すように統計データベース1105に記憶される。 This information is stored in the statistics database 1105 as shown in FIG. 11. 例えば、ASRの動作の結果は、信頼度スコア統計としてデータベース1105に記憶され、このASRについての総統計は、ソフトウェアアプリケーション1101によって必要とされる適用可能な業務規則または他の規則の下でこのASRが使用可能かどうかに関して考慮される。 For example, the result of the operation of the ASR is stored in a database 1105 as confidence score statistics, total statistics for this ASR, the ASR under applicable business rules or other rules that are required by the software application 1101 There is taken into account with respect to whether or not available. さらに、話者、プロンプト、文法、適用例、認識方法(例えばASR、HSR、単一ASR、複数ASR、複数HSR)、信頼度、合致なしまたは入力なし、および訓練/整調など、発話に関するあらゆる統計は、ASRプロキシ1102によってデータベース1105に記憶される。 Furthermore, speaker prompts, grammar, applications, recognition method (e.g. ASR, HSR, single ASR, multiple ASR, multiple HSR), reliability, without or without input matching, and training / pacing like, all statistics on speech It is stored in the database 1105 by the ASR proxy 1102.

前の図に関して述べたのと同様にして、発話に対する使用可能な結果をASRが提供できなかった場合は、発話は、認識/不一致解決のために、HSRリソースに送られる。 In a manner similar to that described with respect to the previous figure, if the result available for the speech could not provide ASR is utterance for recognition / mismatch resolution is sent to the HSR resources. 統計は、ASRだけでなくHSRについても維持され、統計はさらに、個別の話者ベースでも維持される。 Statistics are also maintained for HSR well ASR, statistics are further maintained in separate speaker base. 従って、ASRが特定の話者の認識において特に効果的であることがわかった場合、同じ話者からの後の発話にこのASRが使用される可能性を増大させるために、統計が維持および更新される。 Therefore, if the ASR has been found to be particularly effective in the recognition of a particular speaker, in order to increase the likelihood that the ASR is used for speech after from the same speaker, statistics maintained and updated It is. 同様に、統計は、個別の文法ベースでも維持され、それにより、この場合もやはり、予想される文法、またはプロンプト/文法の組合せに基づいて、使用する適切なリソースを認識決定エンジンが選ぶ可能性が最大化される。 Similarly, statistics are kept in a separate grammar-based, whereby Again in this case, based on a combination of the expected grammar or prompt / grammar, the possibility of choosing the recognition decision engine appropriate resources to be used There is maximized. 例えば、「はい/いいえ」文法は、「あなたはジョンスミスですか?」など、ASRによる単純なプロンプトの認識にはより効果的であろうが、「今日は先週の同じ日に比べて気分がいいですか?」など、より複雑な質問には、効果がより低いであろう。 For example, "Yes / No" grammar, such as "You Is John Smith?", But would be more effective for the recognition of simple prompts by ASR, "today is the mood compared to the same day last week and whether is good? ", to more complex questions, the effect will be lower.

上記から一般化すると、統計は、様々な根拠で生成され、いつ特定のASR/HSRリソースを使用するかについてインテリジェントな決定が行われるように維持される。 Generalizing from the above, statistics are generated by various grounds, intelligent decisions can be maintained as is done for when to use a particular ASR / HSR resources. 信頼度レベルに基づいて、高信頼度のASR認識が可能な文法を、より頻繁にソフトウェアアプリケーション1101によって使用することすらできる。 Based on the confidence level, the grammar capable ASR recognition of high reliability, can even be used more frequently by the software application 1101. 例えば、「はい」または「いいえ」文法は、単純なASRリソースでは信頼度が非常に高いであろう。 For example, "Yes" or "No" grammar, a simple ASR resource confidence will be very high. 統計は、「あなたの電話番号を(555)123−4567として頂戴しておりますが正しいでしょうか?」などの単純な確認ステートメントから、「この1週間、気分がよかった場合は「はい」と言って下さい。 Statistics, said that from a simple confirmation statement, such as "What you have received your phone number as (555)123-4567 correct?", "This week, when the mood was good," Yes. " Please. 気分が全く優れなかった場合は「いいえ」と言って下さい。 If the mood is not good at all Please say "No". 」などのより複雑なコミュニケーションまでの、プロンプト/文法の組合せに関して記録される。 Up to more complex communications such as ", it is recorded for the combination of prompt / grammar.

本明細書における文法に関する考察は、文法とプロンプトの組合せに拡張可能かつ一般化可能である。 Study Grammar herein, can be extended to a combination of grammar and prompt and is generalizable. 例えば、ある統計は、現在のセッションにおける現在の話者の1組の発話(すなわち複数のプロンプトにわたる)についての全体的な信頼度に関係する。 For example, some statistics related to the overall reliability of the current speaker of a set of speech in the current session (i.e. across multiple prompts). ASR認識がプロンプト/文法の組合せにかかわらず話者に対して失敗している場合、このことは、ASRプロキシ1102が、この話者に対してはASRを試みるどころかHSRに頼る方がよいであろうことを示す。 If the ASR recognition has failed against the speaker regardless of the combination of prompt / grammar, this is, ASR proxy 1102, would be better to rely on the HSR rather than attempt to ASR for this speaker indicating that. 他方、特定の話者の発話が、強い信頼度をいつも決まって示している場合、ASRプロキシは、好ましい認識方法としてASRを使用する。 On the other hand, the speech of a particular speaker, if indicate decided strong confidence always, ASR proxy uses ASR preferred recognition method. 特定のセッションを超えて一般化するために、固有の話者参照IDにより、システムは、特定の話者を認識して(例えば、システムと接続するのに使用された電話番号に基づいて)、適切なASRリソースまたはHSRリソースを選ぶことができる。 To generalize beyond a particular session, the specific speaker reference ID, the system recognizes the particular speaker (e.g., based on the telephone number used to connect to the system), it is able to select the appropriate ASR resource or HSR resources.

ソフトウェアアプリケーション1101は、ソフトウェア開発者が特定の状況について適切だと思うことのできる、かつ、状況によっては、前の認識経験に基づいて時の経過に伴って生成された、閾値を提供する。 Software application 1101 may be software developers think about it's proper particular situation, and, in some circumstances, was generated with the passage of time based on previous recognition experience, provides a threshold. 例えば、HSRリソースを介した二重チェックまたは確認によって統計を生成することができる場合、これらの統計は、収集されてデータベース1105に記憶される。 For example, if it is possible to generate statistics by a double check or confirmation via the HSR resources, these statistics are stored is collected in a database 1105. このような統計からの平均、標準偏差およびモード情報が、このようなアプリケーションの全体的な目標に基づき、ソフトウェアアプリケーション1101のソフトウェア開発者によって決定された必要性に応じて、様々な閾値に適用される。 The average from these statistics, standard deviation, and mode information, based on the overall goal of such applications, depending on the need, which is determined by a software developer of software applications 1101, is applied to various thresholds that.

さらに、統計は、ASRリソースにさらに依拠することが効果的でなくなるときを決定するのにも使用可能である。 Furthermore, statistics can also be used to determine when further relied upon to ASR resource is no longer effective. 例えば、ASRおよび特定の文法についてのかなりのサンプルサイズの認識品質が、性能が容認可能な認識閾値を超える可能性が低いことを示す場合、このASRは、この特定の認識タスクに対しては将来の考慮から除外される。 For example, the recognition quality of a significant sample size for ASR and specific grammars, indicating it is less likely to exceed the recognition threshold for acceptable performance, the ASR is for this particular recognition task future They are excluded from consideration. この認識タスクはより多くの訓練(または整調)を必要とする可能性があるが、複数の訓練/整調を試みてもうまくいかないことが判明することにより、この特定の認識試行は、プロンプト/文法に対する調節や、新しいASRまたは新しいバージョンのASRの使用などの変化が生じるまで、考慮から永久に除外される。 This recognition task may require more training (or pacing), by turn out to be unsuccessful even attempt a plurality of training / pacing, the specific recognition attempt, to prompts / grammar regulation and, to a change such as the use of new ASR or a new version of the ASR occurs, are excluded permanently from consideration.

統計はまた、ASRを整調するのにも使用可能である。 Statistics also may be used to pacing the ASR. 文法の整調は、文法「赤、緑、または青」において「赤」が使用されるときのパーセントなど、純粋に統計的であることもあり、または、「青」に対する「ターコイズ」など、類義語を含む可能性もある。 Pacing of grammar, grammar, etc. percent when the "red" is used in the "red, green, or blue", also may be purely statistical, or, such as "Turquoise" for the "blue", a synonym also likely to contain some. 後者の場合、整調は、HSRリソースを「文法外」レコグナイザに使用することによって容易になる(例えば、特定の場合に「ターコイズ」が「青」の類義語と考えられるべきであることを確認するために)。 In the latter case, pacing is facilitated by the use of HSR resources "Grammar outside" recognizer (e.g., to confirm that the "Turquoise" should be considered as synonyms of "blue" in certain cases to). このような整調の直後は、適用例によっては、整調されたASRを、本番ベースではなく「サイレントな」限定テストベースで導入して、性能が容認可能な閾値よりも高いことを確実にすることが望ましいであろう。 Immediately after such pacing, some applications, a paced ASR, introduced in "silent" limitation test basis rather than a production basis, to ensure that higher than performance acceptable threshold it would be desirable. 一実施形態では、ASRが当該の文法を認識できることを検証するために、かつ、上述した妥当性検査の間に信頼度閾値統計を計算するために、かつ、ASRによる認識が無効な場合に信頼度閾値統計を計算するために、HSRが利用される。 In one embodiment, in order to verify that the ASR can recognize the grammar, and reliability in the case in order to compute the confidence threshold statistics during validation described above, and an invalid recognition by the ASR to calculate the degree threshold statistics, HSR is utilized. 妥当性検査の後でも、ASRまたはHSRリソースによるランダム二重チェックが、選択された認識方法の妥当性に対する継続的なチェックを提供する。 Even after validation, random double check by ASR or HSR resources, to provide continuous checking for validity of the selected recognition method. このようなチェックの頻度は、一実施形態では、正しいASR認識と間違ったASR認識との間の統計的偏差に基づく。 The frequency of such check, in one embodiment, based on a statistical deviation between the false ASR recognizes the correct ASR recognition. 具体的な例として、正しい認識の平均信頼度が56であり、間違った認識の平均信頼度が36である状況を考えてみる。 As a specific example, the average confidence of correct recognition 56, consider the situation mean reliability of incorrect recognition is 36. 標準偏差が小さい(例えば8)場合、このことは、正しい認識と間違った認識との間には実際上の混乱はほとんどないことを示唆することになり、従って、二重チェックはあまり頻繁に使用する必要はない。 If the standard deviation is small (for example 8), this is, will want to suggest that there is little practical confusion between the wrong recognized as correct recognition, therefore, double check is less frequently used do not have to. しかし、標準偏差がより大きい(例えば12)場合は、文法信頼度閾値をより細かく整調するために、より頻繁な二重チェックが必要とされるであろう。 However, if the standard deviation is larger than (e.g., 12), in order to more finely tuned grammar confidence threshold would more frequent double check is required.

時の経過に伴って、統計は、ASRプロキシ1102に、その初期動作を変更するよう提案することができる。 With the passage of time, statistics, the ASR proxy 1102 may propose to modify the initial operation. 例えば、非常によい成功が統計的に示唆される場合、このことは、2つのASRの二重チェックから、1つのASRのみのチェックへの変更を提案することができる。 For example, if a very good success is suggested statistically, this is a double check of the two ASR, it may propose changes to only check a single ASR. または、成功が乏しい場合は、特に難しい文法に対して訓練若しくは整調する試みを止めて、代わりにHSRのみを使用することを提案することができる。 Or, if success is poor, it is possible to propose to stop the attempt to train or pacing, that you use only the HSR in place against the particularly difficult grammar.

ASRの初期訓練と後続の整調は両方とも、共通の特性を共有し、これらは同様に実施されてよい。 Both subsequent pacing the ASR initial training, share common characteristics, it may be implemented as well. しかし、多くの場合、訓練は、初期整調よりも微妙な問題、大きい語彙および統計言語モデルを伴い、従って、整調ではうまく働く技法が、訓練には最適でないことがある。 However, in many cases, training, subtle problem than the initial shakedown, accompanied by a large vocabulary and statistical language models, therefore, the techniques work well in pacing, the training may not be optimal. 訓練は、かなりより大きいサンプルサイズ、HSRをより多く使用すること、および文法外ASRリソースに依拠することを必要とする場合がある。 Training may require significantly larger sample size, be more use HSR, and relying on grammar outside ASR resource.

特に複雑な文法は、異なる認識モデルを有する2つのASR(異なるベンダからの)による一貫した二重チェックを必要とすることがあり、異なる結果がHSRによって判決される。 Particularly complex grammar, may require a consistent double check by two ASR (from different vendors) with different recognition models, different results are ruling by HSR. 複数のHSR(例えば、2つのHSRと、違いを解決するように働く第3のHSR)に依拠することは、場合によっては、さらに利益をもたらすことができる(例えば、本明細書にその内容が完全に記載されているかのように参照によりその内容が組み込まれる特許文献5参照)。 A plurality of HSR is relying on (e.g., two HSR, third HSR act to resolve the differences), in some cases, can further benefit (e.g., its contents herein Patent Document 5 completely its contents by reference as if set forth is incorporated). ASRプロキシ1102は、ソフトウェアアプリケーション1101を介して、これらの可能性のいずれにも対処するように構成可能である。 ASR proxy 1102 via the software application 1101, is in any of these possibilities can be configured to deal with.

図12に移るが、一実施形態では、認識決定エンジン1201は、以下のように動作して、履歴統計(例えば、話者、セッション、文法および適用例についての)並びに他の要因に応じて、かつ様々な構成設定に基づいて、どのように発話を処理するか決定する。 Turning to FIG. 12, in one embodiment, the recognition decision engine 1201 operates as follows, historical statistics (e.g., speaker, session, the grammar and applications) as well as according to other factors, and based on various configuration settings to determine how to process the speech. 図12に示す例では、最初のステップとして、認識決定エンジン1201は、ASRが訓練または整調されるまでASRが使用されないように指示することができる。 In the example shown in FIG. 12, as a first step, the recognition decision engine 1201, ASR can be instructed to ASR is not used until the training or pacing. これを決定するためにチェック1202が行われる。 Check 1202 is performed in order to determine this. そのように指示される場合は、チェック1207が行われて、このような整調/訓練が既に完了したかどうか判定される。 When so instructed, the check 1207 is performed, such pacing / training is determined whether the already completed. そのように指示されない場合は、クイックチェック1203が行われ、訓練が必要でないほど文法が十分に単純(例えば文法がごく少数の語末しか有さない)かどうか判定される。 When so not instructed, quick check 1203 is performed, it is determined whether or not the grammar as it is not necessary training is simple enough (for example grammar does not have only a small minority of the end of a word). 文法が単純でない場合は、処理は再びチェック1207に移る。 If grammar is not simple, the process proceeds to check 1207 again. 文法が十分に単純である場合は、処理はチェック1204に移る。 If the grammar is simple enough, the process proceeds to check 1204. 上述したチェック1207では、この文法に対するASR成功についての記憶済み統計と、ASRが前にこの文法に対して整調/訓練されたかどうか(同じアプリケーション1101中であろうと、または類似の目標および対応する信頼度閾値を有する場合のある他のアプリケーション中であろうと)とを調べる。 In check 1207 described above, and the stored statistics for ASR success for this grammar, ASR is whether paced / trained for this grammar before (whether in the same application 1101, or similar objectives and corresponding confidence examine some other that it would be in the application) and when having a degree threshold. 十分に訓練/整調されていることをこれらの統計が示す場合は、チェック1207は処理をチェック1204に渡す。 If indicated these statistics that is well trained / pacing, check 1207 passes the process to check 1204. そうでない場合は、処理はHSR処理1210に進む。 Otherwise, the process proceeds to HSR processing 1210.

チェック1204では、データベース1105に記憶された信頼度統計、およびASRが特定の文法を理解できる閾値と、セッション内で話者を認識することの進行中の信頼度における第2の統計とを使用する。 In check 1204, the stored confidence statistics in the database 1105, and ASR uses the threshold value can understand the specific grammar, and a second statistics on the reliability of the ongoing recognizing speaker in the session . 整調または訓練されない単純な文法の場合、ASRがどれくらいうまく認識タスクを実施しているかに関する進行中の統計が、アプリケーションによって提供される予期される認識信頼度閾値、またはプロキシによって計算された閾値と比較される。 For simple grammar that is not paced or training comparison, ASR is the ongoing statistics on whether the implemented successfully recognition task much, the expected recognition reliability threshold or threshold computed by the proxy, provided by the application It is. 最初の認識が実施されつつある場合では、閾値は、満たされないと自動的に見なされるように設定されてよく、強制的にHSRによって認識されるようにして、プロキシによって閾値を最初に計算できるようにする。 In the case where the first recognition is being performed, the threshold may be set to be automatically considered not met, forced so as to be recognized by the HSR, so that it can first calculate the threshold by the proxy to. ある実施形態では、閾値は、現在の文法に関する履歴情報によって増補される。 In some embodiments, the threshold is augmented by the history information about the current grammar. 追加で、ASRの話者認識能力が、閾値よりも高い信頼度を示唆する場合は、ASR処理が使用されることになり、処理はチェック1205に移る。 In addition, the speaker recognition capabilities of the ASR is, may suggest a higher reliability than the threshold value, will be ASR processing is used, the process proceeds to check 1205. そうでない場合は、HSR処理1210が使用される。 Otherwise, HSR process 1210 is used. 例えば、閾値は、ASR認識が信頼度(または調節済み信頼度、例えば高価値の話者)未満になる回数として設定することができる。 For example, the threshold may be ASR recognition set reliability (or conditioned reliability, such as high-value speakers) as the number of times that is less than. 適用例によっては、この回数は、信頼度未満のASR認識が1回でもあれば後続の認識をHSRによって実施させるように、低く設定される。 In some applications, this number, subsequent recognition so as to be performed by HSR Some in reliability than the ASR recognition once, is set to be lower.

チェック1205で、ソフトウェアアプリケーション1101または別の構成要素(例えば訓練若しくは妥当性検査のための要件)により認識に二重チェックの使用が必要とされるかどうか判定する。 Check 1205 to determine whether use of a double check recognized by (Requirements for example training or validation) software application 1101 or another component is required. 二重チェックの使用が必要とされない場合は、処理はステップ1206に移り、単一のASRが認識に使用される。 If use of double checking is not required, the process proceeds to step 1206, a single ASR is used to recognize.

二重チェックが必要とされる場合は、処理はチェック1208に移り、2つ以上のASRによって二重チェックを行うことができるか(例えば、訓練されたASRおよび他の形で容認可能なASRが、2つ以上利用可能なので)どうか判定する。 When a double check is required, the process moves to checking 1208, whether the two or more ASR can perform double check (e.g., an acceptable in trained ASR and other forms ASR is since the available two or more) to determine whether. 行うことができる場合は、処理はステップ1209に移り、そのような複数のASRによって認識が実施される。 If it is possible to perform, the process moves to step 1209, is recognized by such plurality of ASR is performed. 行うことができない場合、例えばASRが認識に適さないかまたはASR妥当性検査が実施されることになる場合は、処理はステップ1210および1211に移り、従って、認識はASRリソースとHSRリソースの両方によって実施される。 If you can not do, for example, if the ASR is is unsuitable or ASR validation recognition is to be performed, the process proceeds to step 1210 and 1211, therefore, recognized by both ASR resource and HSR Resources It is carried out.

ASRまたはHSRが認識を完了すると、認識に関する統計が統計データベース1105に記憶される。 If ASR or HSR has completed recognition, statistics on the recognition are stored in the statistics database 1105.

図11に関して上述したように、ASRプロキシ1102はまた、結果決定エンジン1107と通信する。 As described above with respect to FIG. 11, ASR proxy 1102 also communicates with the result determination engine 1107. このようなエンジンの目的は、ASR/HSRリソースによる認識プロセスの結果を評価することである。 The purpose of such an engine is to evaluate the results of the recognition process by ASR / HSR resources. 図13を参照すると、例示的な結果決定エンジン1301が示されており、この動作について次のように述べる。 Referring to FIG. 13, there is shown exemplary results decision engine 1301, described the operation as follows. 結果決定エンジン1301は、1または複数のASR/HSRリソースからの認識の結果を検討し、適切な次のステップを決定する。 Result decision engine 1301, examined the results of recognition from one or more ASR / HSR resource, to determine the appropriate next steps. 最初に、チェック1302が行われて、報告された信頼度レベルが、ソフトウェアアプリケーション1101によって設定されたかまたはASRプロキシ1102によって計算された認識閾値を満たすかどうか判定される。 First, check 1302 is performed, it reported confidence level is determined whether it satisfies the recognition threshold calculated by or ASR proxy 1102 is set by the software application 1101. 満たす場合は、認識成功を反映するように妥当性検査統計が更新されて(1303)、結果決定エンジン1301の動作は完了する。 If satisfied, the validation statistics are updated to reflect the recognition success (1303), the operation result determining engine 1301 is completed. 満たさない場合は、さらに処理が必要とされるので、「フィラー(filler)」プロンプトがユーザに提供される(1304)。 If not satisfied, because more processing is required, "filler (filler)" prompt is provided to the user (1304). 例えば、発信者は、「まだ作業中なのでお待ち下さい。」と言われることがある。 For example, the caller is sometimes referred to as "Please wait because it is still working.". 発信者に提供される特定のメッセージは、このようなデフォルトメッセージである場合もあり、または、何らかの形の参照を介してソフトウェアアプリケーション1101によって提供および決定されるより具体的なメッセージである場合もある。 Specific message provided to the caller, might be such a default message, or in some cases a specific message from the provided and determined by the software application 1101 via the reference some form .

次いで処理は、1または複数のHSRリソースによる認識1305に移り、チェック1306に移って、HSRの認識がASRの認識と一致するかどうか判定される。 Then processing moves to recognize 1305 according to one or more of HSR resources, moving to check 1306, recognition of HSR is determined whether it matches the recognition of ASR. 一致する場合は、統計が再び更新される(1303)が、今回は、認識はHSRも必要としたので、統計は比例配分される。 If they match, the statistics are updated again (1303) is, this time, recognized since the need HSR, statistics are prorated. 一実施形態では、比例配分は、信頼度閾値をクリアしたとすれば提供されたはずのスコアから3分の1の差引きである。 In one embodiment, the proportional allocation is one of the deduction of 3 minutes from the score that should have been provided if cleared the confidence threshold.

HSRとASRとの間の認識の結果が異なる場合は、チェック1308が行われて、二重HSRが使用されたかどうか判定される。 If the result of the recognition between the HSR and ASR are different, check 1308 is performed, the double HSR is determined whether it has been used. 使用された場合は、二重HSRからの結果が使用され(1307)、成功したASR認識を追跡する統計がデクリメントされる。 If used, the results of a double HSR is used (1307), successful ASR recognizes tracking statistics are decremented. 使用されなかった場合は、追加のフィラーメッセージが再生され(1309)、追加のHSR認識が企てられる(1310)。 If not used, the reproduced additional filler message (1309), is undertaken additional HSR recognition (1310). HSR結果が一致しない場合は、HSRを使用する第3の試みが実施される(これは、ある実施形態では行われるが、他の実施形態では行われない)。 If the HSR results do not match, the third attempt to use the HSR is performed (which, in embodiments is performed, not performed in other embodiments). HSR間に合意がない場合、「合致なし」という結果が返される。 If there is no agreement between the HSR, the result "no match" is returned. これは、どのレコグナイザも話者を理解しないことを示す(従ってASRへのどんな偏向も示されない)。 This is how the recognizer (not shown any deflection of the thus ASR) also indicates that no understanding of the speaker. 現在の負荷条件に応じて、第2または第3のHSRを実施するのが実際的でないこともあり、その場合は、単一のHSR結果が使用されるが、やはりASRへの偏向はない。 Depending on the current load condition, there may be impractical to carry out the second or third HSR, case, although a single HSR results are used, there is no still deflected to ASR. このような実施形態では、図14、図15および図16に関しても論じる結果決定エンジンの動作について、同様の処理が使用される。 In such embodiments, FIG. 14, the operation of the result determination engine also discussed with respect to FIGS. 15 and 16, the same process is used. ASRがHSR認識と合致すると判定された場合は、処理は完了する。 If ASR is determined to match the HSR recognition, processing is complete. そうでない場合は、処理は1307に戻って、上述したように、HSR認識を適用し統計を更新する。 Otherwise, the process returns to 1307, as described above, to update the applying the HSR recognition statistics.

一実装形態では、ASRは、認識の結果として文法から選択する必要はないことに留意されたい。 In one implementation, ASR is noted that it is not necessary to select from the grammar as a result of the recognition. ASRはまた、「合致なし」、「入力なし」または「雑音」という結果を返すこともでき、その場合は、やはりアプリケーションによって確立された基準に応じて、前述のようにさらにHSR処理が使用される。 ASR also "no match", can also return a result of "no input" or "noise", in that case, also in accordance with the criteria established by the application, further HSR treated as described above is used that.

図14を参照すると、結果決定エンジン1401の一実施形態が示されており、この動作について以下のように述べる。 Referring to FIG. 14, there is shown one embodiment of a result determination engine 1401, for the operation described in the following. 結果決定エンジン1401は、2つ以上のASRリソースからの認識の結果を検討し、適切な次のステップを決定する。 Result decision engine 1401, examined the results of the recognition of two or more ASR resource, to determine the appropriate next step. 最初に、チェック1402が行われて、2つのASRリソースからの結果が一致するかどうか判定される。 First, check 1402 is performed, the results from two ASR resource is determined whether it matches. 一致する場合は、チェック1403が行われて、信頼度が適切な閾値よりも高いかどうか判定される。 If they match, check 1403 is performed, it is determined whether higher than reliability is appropriate threshold. 一実施形態では、各ASRはそれ自体の閾値を有し、いずれかのASRが信頼度閾値よりも高ければ信頼度は十分であると考えられる。 In one embodiment, each ASR has a threshold of itself, higher if reliability than any of the ASR is confidence threshold is considered to be sufficient. その場合、閾値よりも高いレコグナイザについては妥当性検査統計がインクリメントされ(1404)(一致するが閾値未満であるASRがあれば、それについての統計はインクリメントもデクリメントもされない)、処理は完了する。 In this case, validation statistics are incremented (1404) for higher recognizers than the threshold (if any match is less than the threshold ASR, statistics neither incremented nor decremented about it), the processing is completed.

結果が一致しない場合、または信頼度レベルが十分に高くない場合は、フィラーが発信者に対して再生され(1405)、1406で、認識を実施するようHSRリソースが呼び出される。 If the results do not match, or if the reliability level is not high enough, the filler is played to the caller (1405), in 1406, HSR resources to implement the recognition is invoked. 次にチェック1407が行われて、ASR結果のうちの少なくとも1つがHSR結果と一致するかどうか判定される。 Then check 1407 is performed, at least one of ASR result is determined whether it matches with the result HSR. 一致しない場合、チェック1408が行われて、HSRが二重チェックHSRであったかどうか判定される。 Otherwise, check 1408 is performed, it is determined whether HSR was double check HSR. そうでなかった場合は、再びフィラーが再生され(1409)、追加のHSR認識1410が実施される。 If Not found not, is played again filler (1409), additional HSR recognition 1410 is performed. HSRがASRと一致する場合、またはHSRが二重チェックであった場合、または第2のHSR1410が実施された場合は、処理は移行して、一致するHSR結果を使用する(1411)。 If HSR matches the ASR or if the HSR is a double check, or if the second HSR1410 is performed, the processing shifts, using a matching HSR results (1411). これは、一致しないASRからの統計をデクリメントすることを含み、また、一致するが閾値未満であるASRがあれば、それらからの統計をデクリメントする(ただし比例配分量、一実施形態では3分の1で)。 This includes decrementing the statistics from unmatched ASR, also if there is a matching but is less than the threshold ASR, decrements the statistics from those (but prorated amount of 3 minutes in one embodiment 1). 次に、閾値より高い一致するASR妥当性検査統計があれば、それらがインクリメントされ(1412)、処理は完了する。 Then, if there is ASR validation statistics match higher than a threshold, they are incremented (1412), processing is complete.

図15は、1または複数のASRリソースが1または複数のHSRリソースと共に使用される場合の、結果決定エンジンの処理を示す。 Figure 15 shows the case where one or more ASR resource is used with one or more HSR resources, the processing result decision engine. この場合の、特定の結果決定エンジン1501の動作は、結果が全て一致するかどうかチェックすること(1502)によって開始する。 In this case, the operation of a particular result determination engine 1501, begins by checking whether the results match all (1502). 一致する場合は、上記のように、チェック1503が行われて、各ASRについての信頼度がその閾値よりも高いかどうか判定され、閾値よりも高い場合は、妥当性検査統計がインクリメントされる(1504)。 If they match, as described above, check 1503 is performed, the reliability of each ASR is determined whether higher than the threshold, higher than the threshold value, validation statistics are incremented ( 1504). 上述したように、一致するが閾値未満であるASRがあれば、それらについては比例配分の差引きでインクリメントされる。 As described above, if there is a matching but is less than the threshold ASR, for they are incremented by deduction of prorated. 次いで処理は完了する。 Then processing is complete.

結果が一致しない場合、チェック1505が行われて、二重チェックHSRが使用されたかどうか判定され、使用されなかった場合は、フィラーが再生され(1506)、第2のHSR認識1507が実施される。 If the results do not match, check 1505 is performed, it is determined whether the double check HSR is used, if not used, the filler is played (1506), the second HSR recognition 1507 is performed . 次いで、HSR結果が一致すると仮定して、上述したように、HSR結果が使用され(1508)、一致しないASRについての統計がデクリメントされる。 Then, assuming that HSR results match, as described above, HSR result is used (1508), statistics are decremented for unmatched ASR. HSR結果が一致しない場合は、処理は図13に関して上述したように継続する。 If the HSR results do not match, the process continues as described above with respect to FIG. 13. 一致するASRがあれば、それらについては、完全に、または上述したように比例配分方式で、妥当性検査統計がインクリメントされる(1509)。 If a match is found ASR, about them, totally or pro rata manner as described above, validation statistics are incremented (1509). 次いで処理は完了する。 Then processing is complete.

図16を参照すると、HSRリソースのみが使用される場合の、結果決定エンジン1601の一実施形態の処理が示されている。 Referring to FIG. 16, when only HSR resources are used, and the process of one embodiment of a result determination engine 1601 is shown. 最初のチェック1602で、二重チェックHSRが使用されたかどうか判定する(呼出し元アプリケーションによって二重チェックHSRが必要とされたと仮定して)。 In the first check 1602, (assuming that the required double check HSR by the calling application) double check HSR determines whether it has been used. 二重チェックが使用されなかった場合は、フィラーが再生され(1603)、第2のHSR認識1604が実施されて、認識が正しいことが確実にされる。 If a double check is not used, the filler is played (1603), the second HSR recognition 1604 is performed, it is ensured recognition is correct.

次にチェック1605が行われて、HSRの結果が一致するかどうか判定される。 Then check 1605 is performed, it is determined whether the results of the HSR match. 一致しない場合は、処理は完了し、一実施形態では、呼出し元アプリケーションの要件を満たすために、第3のHSR認識(図示せず)など、このプロセスの範囲外のさらに他の処理が必要とされることになる。 If not, the process is complete, in one embodiment, to meet the requirements of the calling application, such as a third HSR recognition (not shown), required still further processing outside the scope of this process It is is will be. このような場合、第3の認識の後に収束がない場合は、「合致なし」状況が宣言され、これは、認識の試みが失敗したことを示す。 In this case, if there is no convergence after the third recognition, "no match" condition is declared, indicating that the attempt of recognition has failed. 収束がある場合は、少なくとも2つの一致するHSRの結果が使用される。 If there is convergence, at least two matching HSR results are used.

チェック1605における2つのHSR結果が一致する場合は、処理は完了し、例えば認識された発話は、前述のような整調/訓練のためのグループに追加することができる。 If two HSR results in the check 1605 match, the process is complete, for example, recognized utterance can be added to the group for a pacing / training as described above. プロンプトに対する応答の解釈は、テキスト分析の2つの種類、すなわち情報抽出およびセンス分類として見ることができる。 Interpretation of the response to the prompt, the two kinds of text analysis, i.e. can be viewed as an information extraction and sensing classification. 情報抽出は、顧客ID、電話番号、日時、住所、製品タイプ、問題など、用件フォームのスロットを埋めるのに不可欠な特定の情報断片を、識別、抽出および正規化することである。 Information extraction, customer ID, phone number, date and time, address, product type, such as a problem, the specific pieces of information essential to fill the requirements form of slot, identification, extraction and is to normalize. センス分類は、追加の2つの情報タイプ、即ち意味(意図)および応答品質を識別することに関係する。 Sense classification relates to identifying additional two information types, i.e. means (intended) and the response quality. 意味(意図)は、どんな種類のフォームを埋める必要があるかということと関係がある(料金請求、予約のスケジューリング、苦情など)。 Meaning (intention) is, what kind of form related to the fact that there is a need to fill the (billing, scheduling reservations, complaints, etc.). 応答品質は、応答自体と関係がある(不明瞭、雑音、英語ではなくスペイン語、生のエージェントと話したいという要望など)。 Response quality is related to the response itself (unclear, noise, rather than the English Spanish, such as the desire to speak with a live agent).

図17を参照するが、上述の方法およびシステムを実現して、人間らしい体験を最大限にすることができる。 Referring to FIG. 17, but to achieve the above-described methods and systems, it is possible to maximize the human-like experience. 予測最適化1730およびメディア加速1734の結果に示すように、ASRプロキシからアプリケーションに応答し返すための全体的な認識ギャップ時間は、一例では1.25秒に短縮することができる。 As shown in the results of the prediction optimization 1730 and media acceleration 1734, the overall recognition gap time to return in response to the application from the ASR proxy, in one example can be shortened to 1.25 seconds. 図17の具体的なグラフを詳しく検討するが、1710は、最適化されない典型的な認識体験を表す。 Consider in detail the specific graph of FIG. 17, but 1710 represents a typical recognition experience not optimized. 認識すべきメディア(発話)は、3.75秒の長さである(1750)。 Media to be recognized (speech) is the length of 3.75 seconds (1750). この場合に、ASRプロキシがメディアをリアルタイムでストリーミングするが、通常、自動認識を完了するには、メディアストリームの終わりから、1秒の数分の1だけ多くかかる(1712)。 In this case, the ASR proxy for streaming media in real time, typically, to complete the automatic recognition, from the end of the media stream, such as many fractions of a second (1712). ASRプロキシの結果決定エンジンは、HSR(後述する図18の1860)が必要だと決定するが、メディア(発話)は始めから処理される必要があり、これにより、もう約4秒が追加され(1714)、ユーザから見たギャップは少なくとも4.25秒になる。 ASR proxy results decision engine, HSR will determine the need for (1860 to be described later Fig. 18), the media (speech) must be processed from the beginning, thereby, further about 4 seconds is added ( 1714), a gap as seen from the user to at least 4.25 seconds. このギャップは、アプリケーション1810によって、業界で「フィラープロンプト」としばしば呼ばれる方式で埋めることができ、それにより、システムがまだ問題に取り組んでいることをユーザが確実に認識するようにする。 This gap, by the application 1810, industry can be filled in a manner often referred to as "fillers Prompt", whereby the system user to reliably recognize that working on still problems. このフィラープロンプトは、発信者とのより人間らしい対話を生み出す目標を達成しないのは確かである。 This filler prompt, it is certainly not achieve the goal of creating a more human-like interaction with the caller. グラフ1715に移ると、システムは、メディアを例えば1秒加速させることによって改善を図ることができ、それにより、人間援助による理解を3秒に短縮し(1719)、認識ギャップまでのメディア停止を3.25秒に短縮することができる。 Turning to the graph 1715, the system can be improved by accelerating the media for example one second, thereby shortening the understanding by human assistance to 3 seconds (1719), the media stop to recognize the gap 3 it can be shortened to .25 seconds. これはなかなかの改善である。 This is quite a improvement. 1730に示すように、自動認識が、部分認識予測器を使用して、より短い時間で結果の予測を提供する。 As shown in 1730, it is automatically recognized using the partial recognition predictor provides a shorter time results predicted. 1732に示すように、認識が失敗したと判定するのに2秒しかかからず、その後、ASRプロキシは、人間援助を求めてメディアをストリーミングし、メディアを加速させる。 As shown in 1732, only less 2 seconds to determine the recognition has failed, then, ASR proxy, streaming media seeking human assistance to accelerate the media. 結果として、メディアの終わりから人間援助の成功までの全体的な認識ギャップは、4.25秒から1.25秒に大きく短縮された。 As a result, the overall recognition gap from the end of the media to the success of human assistance, was reduced significantly from 4.25 seconds to 1.25 seconds. これにより、ASRプロキシの認識ギャップは、人間らしい対話により近く合致する範囲に短縮される。 Thus, recognition gap ASR proxy is reduced to a range that matches closer humane interaction.

図18に、ASRプロキシの主要なシステムコンポーネントを示し、図11のいくつかの要素を詳述してASRプロキシをさらに例証する。 Figure 18 shows the major system components of the ASR proxy, further illustrate the ASR proxy detailing some of the elements of FIG. 11. 図11の図解の一部にはないが、本開示内にはユーザ状態管理ストア1813があり、明確にするためにこれを図18に特に示す。 No Some illustration of FIG. 11, but the present disclosure there is the user state management store 1813, particularly shown in FIG. 18 this for clarity. ユーザ状態管理1813は、ユーザに関する情報(例えば、ユーザ識別、好ましい通信チャネルおよび所有機器)を有する。 User state management 1813 has information about the user (e.g., user identification, preferably the communication channel and owned equipment). 認識成功(人間援助ではなく自動化)など、ユーザの処理にとって重要な情報が、将来の使用のために統計ストア1830に記憶される。 Such as recognition success (automation rather than human assistance), important information for processing of the user is stored in the statistical store 1830 for future use. システムは、各対話のステータスに関する情報を維持する。 System maintains information about the status of each interaction. この情報は、一方では、意図分析の利用可能性に関する情報からなり、他方では、提示された認識要求と、これらの要求に対する応答と、これらの応答の意味(意図)と、これらの応答から抽出された特定の内容と、プロキシが次にどんなアクションを実施することになるかとのシーケンスに関する情報からなる。 This information is on the one hand, consists of information regarding the availability of the intended analysis, on the other hand, the recognition request that is presented, the response to these requests, the meaning of these responses (intent), extracted from these responses and specific content that is composed of information relating to a sequence of whether would proxy then implement whatever actions.

プロキシ処理システムは、特定のプロンプトと、このプロンプトに対する応答の意味(意図)と、この応答から抽出された特定の情報とに基づいて、そのアクション(すなわち、どんな追加情報をユーザに要求するか、およびその情報を用いてどんなアクションを次に実施するか)を調整する。 Or proxy processing system, a specific prompt, the meaning of the response to this prompt (intention), based on the specific information extracted from the response, the action (i.e., to request any additional information to the user, and then either implemented) to adjust what actions by using the information. システムステータスサブシステム1815は、HSRキャパシティまたはある実施形態ではシステム負荷と、これがどのように自動認識および人間認識の使用に影響を及ぼすかとを、常に把握している。 System Status subsystem 1815, a system load in the HSR capacity or embodiments, it is how to Eikyouwooyobosukato the use of automatic recognition and human recognition are always grasped. 図18の残りの要素については、他の図に関して上述したとおりであり、ここでは、ASR/NLU1850は、利用できる複数のASR/NLUインスタンスを表すように複数の円で特に示されている。 The remaining elements of FIG 18 is as described above with respect to other figures, where, ASR / NLU1850 is particularly shown by a plurality of circles to represent a plurality of ASR / NLU instances available.

図19に、システムステータスの評価に基づいてASRまたはDTMFの機能を場合により使用する(アプリケーションに基づいて適切なら)、決定エンジンの動作を示す。 19, (if based on the application appropriate) based on the evaluation of the system status using optionally the function of the ASR or DTMF, showing the operation of the decision engine. 本明細書では、これらの動作は認識決定エンジン1980および結果決定エンジン1990によって処理されるものとして述べるが、様々なメモリおよびプロセッサアーキテクチャを使用してこのようなエンジンを実現できることは、当業者なら認識するであろう。 In this specification, these operations will be described as being processed by the recognition decision engine 1980 and the result determination engine 1990, but can be realized such engines use a variety of memory and processor architecture, recognized by those skilled in the art It will be. 認識に関する統計がない場合(1900)は、十分なHSRキャパシティがない場合にDTMF手法を使用して自動化するようアプリケーションに知らせること以外には、自動化は使用されない。 If there are no statistics on recognition (1900), in addition to inform the application to automate using DTMF techniques if there is not enough HSR capacity, automated is not used. DTMFがアプリケーションに利用可能にされることになり、アプリケーションは、業務規則によってDTMFの変形が利用可能にされることを許容する。 Will be DTMF is made available to the application, the application allows the DTMF modifications are made available by the business rules. この実施形態では、DTMFは、アプリケーションからの第2の認識要求に基づいて使用されることになる。 In this embodiment, DTMF will be used based on the second recognition request from the application. 様々な実施形態で、アプリケーションは、利用可能であることを無視して後続の認識を試みることを選ぶこともでき、または、ある認識要求に対してはDTMFを使用し、最も難しいアイテムはHSRに任せることを選ぶこともできる。 In various embodiments, the application can choose to try subsequent recognition ignoring that it is available or is using DTMF for recognition request, the most difficult items to HSR it is also possible to choose to leave. 例えば、電話番号のデータ収集はDTMFによって容易に行うことができるが、EメールアドレスはHSRによってより適切に扱われる。 For example, data collection telephone number can be easily performed by DTMF, the E-mail address are handled better by HSR.

アプリケーションが、ある実施形態で、システムステータス1815および統計の利用可能性1830に応じて、通知し(1900R)、いくつかの形の人間らしい対話を提供する。 Application, in certain embodiments, depending on the availability 1830 system status 1815 and statistics notified (1900R), provides a human-like interaction of several forms. 即ち、これらの対話は、(1)人間援助による理解のみを使用した、人間らしい対話1925、(2)自動化と人間援助の組合せを高品質で使用した、人間らしい対話1930、(3)アプリケーションが異なる品質に応答できることを必要とせずに、自動化と人間援助の組合せを負荷要因に応じて可変品質で使用した、人間らしい対話1930、(4)アプリケーションがより低い自動化信頼度に合わせて検証促進を増加させる、自動化1950と人間援助1960の組合せを負荷要因に応じて可変品質で使用した、人間らしい対話1930または1940、および、(5)DTMFダイアログなど、人間らしくなることが意図されない対話1940である。 That is, the quality of these interactions are the (1) using only understood by human assistance decent dialogue 1925, was used in high quality (2) a combination of automated and human assistance, humane interaction 1930, which is (3) application different without the need to be able to respond to and used by the variable quality a combination of automated and human assistance in accordance with the load factor, human-like interaction 1930, (4) application increases the validation accelerator according to the lower automation reliability, using a variable quality combination of automation 1950 and human assistance 1960 in accordance with the load factor, human-like interaction 1930 or 1940, and, (5) such as DTMF dialog is a conversation 1940 be humanly is not intended. このように、システムは、ASRプロキシの機能とシステムの負荷とに応答して、種々のタイプのプロンプトを提示する。 Thus, the system, in response to the load of the ASR proxy functions and systems, presents various types of prompts. 例えば、(5)の場合では「販売については1を押して下さい。・・・については2を押して下さい・・・」となるが、同じ質問が、「どういったご用件ですか?」として言い換えられることになり、これは(1)の場合を例証する。 For example, as "press 1 for sales. For ... is ... please press 2" in the case of (5) is the same question, "can I help you?" It will be translates, which illustrates the case of (1).

図20は、図18および図19で主に述べたようなロジックおよびコンポーネントを含み、統計を用いたASRおよびHSR処理のフローを示す。 Figure 20 includes a logic and components such as mainly described in FIG. 18 and FIG. 19 shows the flow of ASR and HSR process using the statistics. 図21および図22は、任意選択の同時並行フローであることに留意されたい。 21 and 22, it is noted that concurrent flow optional. 図20は、認識決定エンジン2000および結果決定エンジン2020を使用し、これらは、統計1820をシステムステータス情報1815と共に使用し、任意選択で、認識メディア(音声、ビデオ)を加速させて(2010)、自動化と人間援助との間のフェイルオーバ時間を短縮する。 Figure 20 uses the recognition decision engine 2000 and the result determination engine 2020, which uses a statistical 1820 with system status information 1815, and optionally, recognized media (audio, video) to accelerate the (2010), to reduce the failover time between automation and human assistance.

図21に、任意選択の並行フローを示すが、この場合、認識決定エンジン2100における認識およびシステムステータス1815に、タイマ統計が組み合わせられる。 Figure 21 shows a parallel flow optional, in this case, the recognition and system status 1815 in the recognition decision engine 2100, the timer statistics are combined. メディアが、通常うまく認識できるもの(システム負荷に従って調節できる)よりも長い場合は、タイマイベントが発火し、認識は人間援助1860に移る。 Media, when usually longer than what can be successfully recognized (adjustable according to the system load), the timer event is fired, recognition proceeds on human assistance 1860. 結果決定エンジン2150は、前述のように動作する。 Result decision engine 2150 operates as described above.

図22に、任意選択の並行フローを示すが、この場合、認識決定エンジン2200中で、システム負荷予測信頼度調節に応じてメディアの一部に対する認識予測が行われ、認識が十分に成功でない場合、認識は人間援助1860に移る。 22, when show concurrent flows optional, in this case, in the recognition decision engine 2200 is performed recognition predictions for some media in accordance with the regulation system load prediction confidence, recognition is not sufficiently successful , recognition is transferred to human assistance 1860. 結果決定エンジン2250は、やはり前述のように動作する。 Result decision engine 2250 operates also as described above.

図23に、メディアおよびメディアの意味の周りでデータを収集して、意味抽出のための最適な文法および分類器を構築するための、かつ最適な認識予測器も構築するための、整調サブシステム/フローを示す。 23 collects data about the media and media sense, for constructing an optimal grammar and classifiers for meaning extraction, and also to build optimal recognition predictor, pacing subsystem / shows a flow. 図23では、ASR2310および分類器自動化が、アプリケーション中のプロンプトの選択されたサブセット2320に適用される使用ケースについて述べる。 In Figure 23, ASR2310 and classifier automation describes use cases that apply to a subset 2320 is selected prompt in its application. アプリケーションプロンプトのセットは様々なカテゴリに入るが、これらのうちのいくつかは自動化の自明な候補であり、いくつかは自動化が困難である。 Although a set of application prompt enter into various categories, some of these are obvious candidates for automation, some of which are difficult to automate. 例えば、はい/いいえプロンプト、および限られたオプションプロンプトの場合は通常、ユーザ発話のレパートリはごく限られ、意図ラベルはごく少数となる。 For example, in the case of Yes / No prompt, and limited options prompt normal, repertoire of the user utterance is very limited, intended label will be very few. これらのタイプのプロンプトを評価しモデル化するには、ASR文法に対しても統計言語モデルに対しても機械学習分類器2340に対しても、比較的少量のデータしか必要でない。 To evaluate modeling these types of prompts, even for machine learning classifier 2340 against a statistical language model for ASR grammar, not only require a relatively small amount of data. 他方、自由回答式プロンプトでは、ユーザははるかに制約の少ない発話セットを生むことができるが、自由回答式プロンプトはより難しい。 On the other hand, in a free answer-type prompt, the user is able to make a little speech set of far more constrained, free answer type prompt more difficult. これらは、一般的と領域特有の両方の知識ベース2330によって増補することができる。 These are generally and may be augmented by knowledge base 2330 of both regions specific. これらのタイプのプロンプトには、比較的より多量のデータが必要である。 These types of prompts, requires a large amount of data from relatively. 多量のデータがあるときであっても、全てのタイプの発話または意図ラベルについての信頼できるモデルを生むには、なお多様性が大きすぎる場合もある。 Even when there is a large amount of data, to produce a reliable model for the utterance or intended labels of all types, cases still diversity too. 言い換えれば、これらの場合、プロンプトの言語的、カテゴリ的および統計的な特性を確立して、これらの特性に基づいてプロンプトの選択および策定を駆動することによって、自動化は進行する。 In other words, in these cases, linguistic prompts establishes a category and statistical properties, by driving the selection and formulation of prompts based on these characteristics, automation progresses. これは、次のような1組の相関するタスクを伴う。 This involves the task of a set of correlation as follows.

− 発話をそれらの特性に基づいて種々のカテゴリに分類する。 - classified into various categories based speech on their properties.
− ASRおよび分類器自動化に適した特性により、所与のアプリケーションの候補プロンプトを識別する。 - the characteristics suitable for ASR and classifier automation, identifying the candidate prompts given application.
− 早期認識の成功または失敗に対して予測器を決定する。 - determining the predictor relative success or failure of the early recognition.
− 各プロンプトにつき、このプロンプトによって生成される発話に対するASRのための音響モデルおよび言語モデルと、このプロンプトのターゲット意図についての分類器モデルとを作り出し、整調し、記憶する。 - For each prompt, it creates the acoustic model and the language model for the ASR for speech generated by this prompt, a classifier model for the target intent of this prompt, pacing, and stores.
− ASRおよび分類器自動化と、人間による意図分析とを、いつ利用またはトレードオフするかを決めるための、選択基準を決定する。 - the ASR and classifier automation, and intended human analysis, to determine when to use or trade-off, it determines the selection criteria.

図24は、北米電話番号を複数の認識構成要素に分割する例を用いた、どのようにタイマ統計を計算できるか、並びに非常に単純な予測器の例である。 Figure 24 was used an example of dividing a North American telephone number to a plurality of recognition component, how can calculate the timer statistics, as well as examples of very simple predictor. 要素2401から2403は、特定の質問(プロンプト)をうまく認識した際に集められた統計を表す。 From the element 2401 2403 represents the compiled statistics upon successfully recognizing the particular question (prompt). 要素2401は、長さが2秒以下の種類の発話を表す。 Element 2401 represents the type of speech below 2 seconds in length. この長さは、この例で統計を有する全ての発話の15%を表す。 This length represents 15% of all utterances that have statistically in this example. ASRは、2秒以下の発話に対して90%成功と決定された。 ASR was determined to 90% successful for 2 seconds or less speech. 要素2402は、2秒よりも長く3秒以下の種類の発話を表し、ASR認識の成功は75%であり、発話の25%がこのグループに入る。 Element 2402 represents a 3 seconds following types of speech longer than 2 seconds, the success of ASR recognition is 75%, 25% of speech in this group. 要素2403は、3秒よりも長く4秒以下の種類の発話を表す。 Element 2403 represents the 4 seconds following types of speech longer than 3 seconds. これは、システムステータスによって影響を受ける可能性のある使用ケースの例である。 This is an example of a use case might be affected by the system status. 十分なHSRリソースがある場合は、タイマを確立して認識を3秒(2402)で中断し、ASRを使用して発話の32.3%をうまく認識することができる。 If there is sufficient HSR resources, interrupted by 3 seconds recognized by establishing a timer (2402), it can be successfully recognize 32.3% of the utterance using ASR. または、システム負荷が増大した場合は、タイマを4秒(2403)に調節し、44.3%を認識することができる。 Or, if the system load is increased, and adjusted to the timer 4 seconds (2403), it can recognize 44.3%. 非常に高い負荷の下では、ASRプロキシは、タイマを使用しないことを決定することができることに留意されたい。 Under very high loads, ASR proxy should be noted that it is possible to determine that the timer is not used. 但しこれは、話者にとってより長い待機時間を引き起こす。 However, this causes a longer waiting time for the speaker. しかしこの結果、55.3%までがうまく認識される。 However, this result, is well recognized up to 55.3%.

要素2404は、3桁のエリアコードのASR認識を表す。 Element 2404 represents the ASR recognition of the 3-digit area code. 要素2405は、3桁のエリアコードのASR認識と、それに加えて3桁の交換局の認識を表す。 Element 2405 represents the ASR recognition code 3 digit area, the recognition of the three-digit exchange station in addition to. 要素2406は、北米電話番号全体のASR認識を表す。 Element 2406, represents the ASR recognition of the entire North American phone number. 例えば、電話番号を話すのに約8秒かかる場合、各ステップ2404、2405および2406は、発話を処理するのにより多くの時間がかかる。 For example, if it takes about eight seconds to speak the phone number, the steps 2404 and 2405 and 2406, takes more time to process the speech. 第1のステップ2404は時間のうちの約30%(2.4秒)かかり、ステップ2は時間のうちの60%(4.8秒)かかり、3つの認識ステップのうちのいずれかが信頼度未満の結果を示す場合は、認識は人間援助に移る。 About 30% of the first step 2404 time (2.4 seconds) it takes, Step 2 60% of the time (4.8 seconds) it takes, either the reliability of the three recognition step when showing the results of less than the recognition moves to human assistance. 例えば、エリアコードが正しく認識されない場合、電話番号全体が話された後で初めて失敗するのではなく、電話番号が話されている間に、HSRの使用が2.4秒以内に起こる可能性がある。 For example, if the area code is not recognized correctly, rather than the first time failed only after the entire telephone number is spoken, while the phone number is spoken, is a possibility that use of HSR occurs within 2.4 seconds is there.

様々な実施形態および実装形態で、この応答解釈は、意図分析者のみ(純粋なHSR)によって行うか、自動化ASR(純粋な自動音声認識および意図分類)によって行うか、またはASRとHSRの何らかの組合せによって行うことができる。 In various embodiments and implementations, some combination of this response interpretation should be done either by only the intended analyst (pure HSR), or performed by an automated ASR (pure automatic speech recognition and intended classification), or ASR and HSR it can be carried out by. ASR自動化の結果における信頼度を使用して、いつASRが信頼できる結果を生成しているかを決定することで、品質損失なしに(または制御された品質損失で)ASR自動化をHSRに対してトレードオフすることが可能である。 Using the confidence in the results of the ASR automation, time by determining whether the generated results ASR is reliable, without loss of quality (or controlled quality loss) trade ASR automated respect HSR it is possible to turn off. このことは、プロキシ処理システムにおけるこの2つの手法の組合せにより、HSRのみを使用する場合よりも大きなスループットを達成することができ、より小さい意図分析者チームでピーク需要負荷をうまく満たすこともできることを意味する。 This is the combination of the two approaches in proxy processing system, only to be able to achieve greater throughput than when using HSR, in smaller intention analyst teams that can also satisfy well the peak demand load means.

上記の主題については、可能性ある様々な実施形態に関して特に詳細に述べた。 The above subject, said particular detail with respect to various embodiments of possibilities. 主題を他の実施形態で実践することもできることを、当業者なら理解するであろう。 That may also be practiced the subject in other embodiments, those skilled in the art will recognize. 第1に、コンポーネントの特定の命名、用語の大文字使用、属性、データ構造またはいずれか他のプログラミング上若しくは構造上の側面は、必須でも有意でもなく、主題またはその特徴を実現するメカニズムは、異なる名称、フォーマットまたはプロトコルを有してもよい。 First, the particular naming of the components, capitalization of terms, the attributes, the side surface of the data structure, or any other programming or on structures, mandatory or no significant, mechanism for implementing the subject matter or its features may differ name, may have a format or protocol. さらに、システムは、述べたようにハードウェアとソフトウェアの組合せを介して実現されてもよく、または完全にハードウェア要素において実現されてもよい。 In addition, the system hardware combination of hardware and software may be implemented through, or may be fully implemented in hardware elements as described. また、本明細書で述べた、様々なシステムコンポーネント間における機能の特定の分割は、例に過ぎず、必須ではない。 Further, described herein, specific division of functions between the various system components are only examples, not essential. 単一のシステムコンポーネントによって実施される機能が、代わりに複数のコンポーネントによって実施されてもよく、複数のコンポーネントによって実施される機能が、代わりに単一のコンポーネントによって実施されてもよい。 Functions performed by a single system component may instead may be performed by multiple components, the functions performed by multiple components may be implemented by a single component instead.

上述のいくつかの部分では、主題の特徴、プロセスステップおよび命令を、情報に対する操作のアルゴリズムおよび象徴表現で提示している。 In some parts of the above, the subject features, process steps and instructions are presented algorithms and symbolic representations of operations on information. これらのアルゴリズム的記述および表現は、データ処理技術分野の当業者によって、その作業の本質を他の当業者に最も効果的に伝えるために使用される手段である。 These algorithmic descriptions and representations are by those skilled in the data processing art are the means used to convey most effectively the substance of their work to others skilled in the art. これらの操作は機能的または論理的に記述されるが、これらの操作は、ソフトウェア、ファームウェアまたはハードウェアにおいて具体化されてよく、ソフトウェアにおいて具体化されるときは、リアルタイムネットワークオペレーティングシステムによって使用される種々のプラットフォーム上に存在しこれらのプラットフォームから操作されるように、ダウンロードされてよい。 These operations are functionally or logically description, these operations, software may be embodied in firmware or hardware, and when embodied in software, is used by real time network operating systems present on a variety of platforms to be operated from these platforms may be downloaded.

さらに、一般性を失うことなく、操作のこれらの構成をモジュールとしてまたは機能的名称によって言及することが、時として好都合であることもわかっている。 Furthermore, without loss of generality, be referred to by or functional names these configurations as a module operation, it has also been found that it is sometimes convenient.

特段に明記されない限り、または上記の考察から明らかなように、この記述全体を通して、「決定する」などの用語を利用した考察は、コンピュータシステムメモリ若しくはレジスタ内で、または他のそのような情報記憶、伝送、若しくは表示デバイス内で、物理的(電子的)な量として表されるデータを操作および変換する、コンピュータシステムまたは類似の電子コンピューティングデバイスのアクションおよびプロセスを指すことを理解されたい。 Unless otherwise specified in particular, or as is apparent from the above discussion, throughout this description, discussion utilizing terms such as "determining", a computer system memory or registers or other such information storage, , transmission, or in the display device to manipulate and transform data represented as amount physical (electronic), should be understood to refer to actions and processes of a computer system or similar electronic computing device.

主題はまた本明細書の動作を実施するための装置に関する。 An apparatus for subject also to carry out the operations herein. この装置は、必要とされる目的のために特に構築されたものであってもよく、またはコンピュータによってアクセスできコンピュータプロセッサによって実行できるコンピュータ可読媒体に記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピュータを含んでもよい。 This device is selectively activated or re particular by may be one constructed, or computer program stored on a computer readable medium that can be performed by an access can computer processor by a computer for the required purposes it may comprise a general purpose computer. このようなコンピュータプログラムは、非一時的コンピュータ可読記憶媒体に記憶されてよく、この非一時的コンピュータ可読記憶媒体は、以下のものに限定されないが、フロッピー(登録商標)ディスクや光ディスクやCD−ROMや光磁気ディスクを含めた任意のタイプのディスク、ROM、RAM、EPROM、EEPROM、磁気若しくは光学カード、ASICまたは電子的命令を記憶するのに適した任意のタイプの媒体などであり、これらは各々コンピュータシステムバスに結合される。 Such a computer program may be stored in non-transitory computer readable storage medium, the non-transitory computer-readable storage media include, but are not limited to, a floppy disk, an optical disk, a CD-ROM and the or any type of disk including a magneto-optical disk, ROM, RAM, EPROM, EEPROM, magnetic or optical cards, or any type of media suitable for storing ASIC or electronic instructions, they each It is coupled to a computer system bus. さらに、本明細書で言及されるコンピュータは、単一のプロセッサを備えてもよく、またはコンピューティング能力の増大のために複数プロセッサ設計を利用するアーキテクチャであってもよい。 Furthermore, the computer referred to herein may be architectures employing multiple processor designs for even better, or an increase in computing power comprises a single processor.

また、主題は、いずれか特定のプログラミング言語に関して述べるものではない。 In addition, the subject matter is not intended to be described with respect to any particular programming language. 様々なプログラミング言語を使用して本明細書に記載の主題の教示を実現できること、並びに、特定の言語へのどんな言及も、主題の使用可能性および最良モードのために提供するものであることを理解されたい。 It can be realized subject of teachings described herein using a variety of programming languages, as well, that any reference to a particular language, there is provided the subject matter of availability and for the best mode It is to be understood.

主題は、多くのトポロジにまたがる幅広いコンピュータネットワークシステムによく適する。 The subject is, well suited to a wide range of computer network system that spans many topologies. この分野内で、大きいネットワークの構成および管理は、インターネットなどのネットワークを介して異種のコンピュータおよび記憶デバイスに通信可能に結合される、記憶デバイスおよびコンピュータを含む。 Within this field, the configuration of large networks and managing, via a network such as the Internet are communicatively coupled to dissimilar computers and storage devices, including storage devices and computers.

最後に、本明細書で使用される言語は、主に読みやすさおよび教授目的のために選択されたものであり、主題を線引きまたは制限するために選択されたのではない場合があることに留意されたい。 Finally, the language used in the specification has been principally selected for readability and teaching purposes, that it may that was not selected to delineate or limit the subject matter It should be noted. 従って、本明細書の開示は、主題の範囲を限定するのではなく例証するものとする。 Accordingly, the disclosure herein is intended to illustrate rather than limit the scope of the subject matter.

Claims (20)

  1. 対話を処理するためのコンピュータ実行システムであって、前記対話は、さらなるコンピュータ実行処理に使用可能になる前に認識を必要とする発話を含み、前記システムは、 A computer-implemented system for processing interactive, the interaction includes a speech that requires recognition before it can be used for further computer-executable process, the system comprising
    前記発話を提供するように構成されたアプリケーションであって、前記発話はコンピュータネットワークを通じて顧客のデバイスから受信される、アプリケーションと、 An application configured to provide the speech, the speech is received from the customer devices over a computer network, and applications,
    認識のために前記発話を受信するように構成された認識決定エンジンであって、前記認識決定エンジンは、自動音声認識(ASR)サブシステム、および前記自動音声認識サブシステムとは異なり、かつ前記コンピュータ実行システムとは離れた場所にあるデバイスとコンピュータネットワークを通じて通信する人間音声認識(HSR)サブシステムから1つまたは複数のレコグナイザを、前記対話を認識する前に動的に選択するために前記アプリケーションによって提供されたパラメータを使用する、認識決定エンジンと、 A configured recognized decision engine to receive the utterance for recognition, the recognition decision engine, automatic speech recognition (ASR) subsystem, and different from the automatic speech recognition subsystem, and the computer one or more recognizer from human speech recognition (HSR) subsystem in communication through the device and the computer network at a remote location from the execution system, by the application to dynamically select before recognizing the conversation using the supplied parameters, the recognition decision engine,
    前記1つまたは複数のレコグナイザと結合され、認識結果を提供するように構成された結果決定エンジンと を備えたシステム。 The one or more coupled with the recognizer, the system comprising a result decision engine configured to provide a recognition result.
  2. 前記認識決定エンジンに動作可能に接続されたシステムステータスサブシステムをさらに備え、前記認識決定エンジンは、前記動的な選択において使用するために、前記システムステータスサブシステムからのシステム負荷情報をインプットとする、請求項1のシステム。 The recognition decision engine further comprising a operably connected system status subsystem, the recognition decision engine for use in the dynamic selection, and inputs the system load information from the System Status subsystem the system of claim 1,.
  3. 前記1つまたは複数のレコグナイザのサブセットは、前記認識決定エンジンに信頼度測定基準を提供するように構成され、前記認識決定エンジンは前記信頼度測定基準を前記動的な選択において使用する、請求項1のシステム。 The one or more subsets of recognizers, said is adapted to recognize the decision engine to provide a confidence metric, the recognition decision engine used in the dynamic selection of the reliability metrics, claim 1 of the system.
  4. 前記信頼度測定基準は閾値を含み、前記閾値はリソース利用可能性に基づいて変動する、請求項3のシステム。 The reliability metric comprises a threshold, the threshold is varied based on resource availability, according to claim 3 system.
  5. 前記認識決定エンジンは、認識コスト要因に基づいて、前記人間音声認識サブシステムに対して前記自動音声認識サブシステムを選択することの方を選ぶように構成される、請求項1のシステム。 The recognition decision engine, based on the recognition cost factors, the human voice configured to choose towards selecting the automatic speech recognition subsystem with respect to recognition subsystem of claim 1 system.
  6. 前記認識決定エンジンは、人間リソース利用可能性要因に基づいて、前記人間音声認識サブシステムに対して前記自動音声認識サブシステムを選択することの方を選ぶように構成される、請求項1のシステム。 The recognition decision engine, based on the human resource availability factors, configured to choose the direction of selecting the automatic speech recognition subsystem to the human voice recognition subsystem of claim 1 system .
  7. 前記結果決定エンジンは、前記レコグナイザのうちの第1のレコグナイザサブシステムと、前記レコグナイザのうちの第2のレコグナイザサブシステムとの間の結果の一致に応答して、前記レコグナイザのうちの前記第1のレコグナイザサブシステムに関連する信頼度閾値を更新するように構成される、請求項1のシステム。 The result decision engine, in response to the first recognizer subsystem of the recognizer, the match result between the second recognizer subsystem of said recognizer, among the recognizer the first recognizer configured to update the associated confidence threshold subsystem of claim 1 system.
  8. 前記認識決定エンジンは、最初に前記自動音声認識サブシステムのうちの第1のレコグナイザサブシステムを選択し、かつ前記自動音声認識サブシステムのうちの前記第1のレコグナイザサブシステムによって提供された最初の結果に応答して、前記レコグナイザのうちの第2のレコグナイザサブシステムの後続の選択を行うように構成され、前記後続の選択は、前記発話の処理が前記自動音声認識サブシステムのうちの前記第1のレコグナイザサブシステムによって完了される前に行われる、請求項1のシステム。 The recognition decision engine, provides initially selecting a first recognizer subsystem of said automatic speech recognition subsystem, and by said first recognizer subsystem of said automatic speech recognition subsystem in response to the first result of the said configured as the subsequent selection of the second recognizer subsystem performs one of the recognizer, the subsequent selection, the process of the utterance is the automatic speech recognition sub It is performed before it is completed by the first recognizer subsystem of the system, according to claim 1 system.
  9. 対話を処理するためにコンピュータシステムによって実行されるコンピュータ実行方法であって、前記対話は、さらなるコンピュータ実行処理に使用可能になる前に認識を必要とする発話を含み、前記コンピュータ実行方法は、 A computer-implemented method performed by the computer system to handle a conversation, the conversation includes a speech that requires recognition before it can be used for further computer-executable process, the computer-implemented method,
    発話を表すデータをコンピュータアプリケーションから受信することであって、前記発話はコンピュータネットワークを通じて顧客のデバイスから受信される、ことと、 The method comprising: receiving data representing speech from a computer application, the speech is received from the customer devices over a computer network, and that,
    前記アプリケーションによって提供されたパラメータを使用して、自動音声レコグナイザ(ASR)、および前記自動音声レコグナイザとは異なり、かつ前記コンピュータシステムとは離れた場所にあるデバイスとコンピュータネットワークを通じて通信する人間音声認識レコグナイザ(HSR)から1つまたは複数のレコグナイザを、前記対話を認識する前に動的に選択することと、 Using the parameters provided by the application, unlike the automatic speech recognizer (ASR), and the automatic speech recognizer, and human voice recognition recognizer to communicate through the device and the computer network at a remote location from said computer system one or more recognizer from (HSR), and to dynamically selected before recognizing the conversation,
    前記1つまたは複数のレコグナイザによる処理の結果に応答して認識結果を提供することと を備えるコンピュータ実行方法。 Computer-implemented method comprising providing a recognition result in response to the one or more results of processing by the recognizer.
  10. 前記動的に選択することはシステム負荷測定基準に応答したものである、請求項9のコンピュータ実行方法。 Wherein dynamically selecting are those in response to system load metric computer implemented method of claim 9.
  11. 前記動的に選択することは信頼度測定基準に応答したものである、請求項9のコンピュータ実行方法。 Wherein dynamically selecting are those that respond to the confidence metric, the computer implemented method of claim 9.
  12. 前記信頼度測定基準は閾値を含み、前記閾値はリソース利用可能性に基づいて変動する、請求項11のコンピュータ実行方法。 The reliability metric comprises a threshold, the threshold is varied based on resource availability, a computer-implemented method of claim 11.
  13. 前記動的に選択することは、認識コスト要因に基づいて、前記人間音声認識レコグナイザに対して前記自動音声レコグナイザを選択することの方を選ぶことである、請求項9のコンピュータ実行方法。 It is based on the recognition cost factor, the is to choose the direction of the relative human speech recognition recognizer selects the automatic speech recognizer, the computer implemented method of claim 9 for selecting the dynamically.
  14. 前記動的に選択することは、人間リソース利用可能性要因に基づいて、前記人間音声認識レコグナイザに対して前記自動音声レコグナイザを選択することの方を選ぶことである、請求項9のコンピュータ実行方法。 Wherein dynamically selecting, based on the human resource availability factors, the it is to choose the direction of the relative human speech recognition recognizer selects the automatic speech recognizer, the computer implemented method of claim 9 .
  15. 前記レコグナイザのうちの第1のレコグナイザと前記レコグナイザのうちの第2のレコグナイザとの間の結果の一致に応答して、前記レコグナイザのうちの前記第1のレコグナイザに関連する信頼度閾値を更新することをさらに備える、請求項9のコンピュータ実行方法。 In response to a match result between the second recognizer of a first recognizer and the recognizer of the recognizer updates the confidence threshold associated with the first recognizer of said recognizer further comprising, a computer-implemented method of claim 9.
  16. 最初に前記自動音声レコグナイザのうちの第1のレコグナイザを選択し、かつ前記自動音声レコグナイザのうちの前記第1のレコグナイザによって提供された最初の結果に応答して、前記レコグナイザのうちの第2のレコグナイザの後続の選択を行うことをさらに備え、前記後続の選択は、前記発話の処理が前記自動音声レコグナイザのうちの前記第1のレコグナイザによって完了される前に行われる、請求項9のコンピュータ実行方法。 Initially selecting a first recognizer of the automatic speech recognizer, and in response to said first result provided by the first recognizer of the automatic speech recognizer, a second of said recognizer further comprising to perform subsequent selection of recognizers, the subsequent selection, the process of the utterance is performed before it is completed by the first recognizer of the automatic speech recognizer, the computer executes the claims 9 Method.
  17. 対話を処理するための実行可能コンピュータプログラムコードを記憶した非一時的コンピュータ可読記憶媒体であって、前記対話は、さらなるコンピュータ実行処理に使用可能になる前に認識を必要とする発話を含み、前記コンピュータプログラムコードは、コンピュータシステムによって実行される時に、前記コンピュータシステムに、 A non-transitory computer-readable storage medium storing executable computer program code for processing interactions, the interaction includes a speech that requires recognition before it can be used for further computer-executable process, the computer program code, when executed by a computer system, the computer system,
    発話を表すデータをコンピュータアプリケーションから受信することであって、前記発話はコンピュータネットワークを通じて顧客のデバイスから受信される、ことと、 The method comprising: receiving data representing speech from a computer application, the speech is received from the customer devices over a computer network, and that,
    前記アプリケーションによって提供されたパラメータを使用して、自動音声レコグナイザ(ASR)、および前記自動音声レコグナイザとは異なり、かつ前記コンピュータシステムとは離れた場所にあるデバイスとコンピュータネットワークを通じて通信する人間音声認識レコグナイザ(HSR)から1つまたは複数のレコグナイザを、前記対話を認識する前に動的に選択することと、 Using the parameters provided by the application, unlike the automatic speech recognizer (ASR), and the automatic speech recognizer, and human voice recognition recognizer to communicate through the device and the computer network at a remote location from said computer system one or more recognizer from (HSR), and to dynamically selected before recognizing the conversation,
    前記1つまたは複数のレコグナイザによる処理の結果に応答して認識結果を提供することと を実行させる、非一時的コンピュータ可読記憶媒体。 The one or more responsive to perform and providing a recognition result to the result of processing by the recognizer, non-transitory computer readable storage medium.
  18. 前記動的な選択はシステム負荷測定基準に応答したものである、請求項17の非一時的コンピュータ可読記憶媒体。 The dynamic selection are those that respond to the system load metrics, non-transitory computer readable storage medium of claim 17.
  19. 前記動的な選択は信頼度測定基準に応答したものである、請求項17の非一時的コンピュータ可読記憶媒体。 The dynamic selection are those that respond to the confidence metric, the non-transitory computer readable storage medium of claim 17.
  20. 前記信頼度測定基準は閾値を含み、前記閾値はリソース利用可能性に基づいて変動する、請求項19の非一時的コンピュータ可読記憶媒体。 The reliability metric comprises a threshold, the threshold is varied based on resource availability, non-transitory computer readable storage medium of claim 19.
JP2014140729A 2011-01-05 2014-07-08 Automatic speech recognition proxy system for natural language understanding Active JP6025785B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/936,440 US9245525B2 (en) 2011-01-05 2013-07-08 Automated speech recognition proxy system for natural language understanding
US13/936,440 2013-07-08

Publications (3)

Publication Number Publication Date
JP2015018238A JP2015018238A (en) 2015-01-29
JP2015018238A5 JP2015018238A5 (en) 2015-11-26
JP6025785B2 true JP6025785B2 (en) 2016-11-16



Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014140729A Active JP6025785B2 (en) 2011-01-05 2014-07-08 Automatic speech recognition proxy system for natural language understanding

Country Status (1)

Country Link
JP (1) JP6025785B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067096A (en) * 1999-08-31 2001-03-16 Omron Corp Voice recognition result evaluating device and record medium
JP3444486B2 (en) * 2000-01-26 2003-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション Automatic voice response system and method using speech recognition means
FR2820872B1 (en) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Method, module, device and voice recognition server
JP4483428B2 (en) * 2004-06-25 2010-06-16 日本電気株式会社 Speech recognition / synthesis system, the synchronization control method, the synchronization control program, and the synchronization control unit
JP4679254B2 (en) * 2004-10-28 2011-04-27 富士通株式会社 Interactive system, interactive method, and computer program
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
WO2011148594A1 (en) * 2010-05-26 2011-12-01 日本電気株式会社 Voice recognition system, voice acquisition terminal, voice recognition distribution method and voice recognition program
US10049669B2 (en) * 2011-01-07 2018-08-14 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers

Also Published As

Publication number Publication date
JP2015018238A (en) 2015-01-29

Similar Documents

Publication Publication Date Title
Litman et al. Designing and evaluating an adaptive spoken dialogue system
Juang et al. Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication
US7346151B2 (en) Method and apparatus for validating agreement between textual and spoken representations of words
US7640160B2 (en) Systems and methods for responding to natural language speech utterance
US9123337B2 (en) Indexing digitized speech with words represented in the digitized speech
US7516076B2 (en) Automated sentence planning in a task classification system
US9224394B2 (en) Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8781833B2 (en) Speech recognition semantic classification training
US8670987B2 (en) Automatic speech recognition with dynamic grammar rules
JP4267081B2 (en) Pattern recognition registration in a distributed system
US7103542B2 (en) Automatically improving a voice recognition system
US9386152B2 (en) Intelligent automated agent and interactive voice response for a contact center
US20040260543A1 (en) Pattern cross-matching
KR101169113B1 (en) Machine learning
US20060122840A1 (en) Tailoring communication from interactive speech enabled and multimodal services
US8762155B2 (en) Voice integration platform
US20020046030A1 (en) Method and apparatus for improved call handling and service based on caller's demographic information
US7406413B2 (en) Method and system for the processing of voice data and for the recognition of a language
US20080208584A1 (en) Pausing A VoiceXML Dialog Of A Multimodal Application
CA2467134C (en) Semantic object synchronous understanding for highly interactive interface
AU2014233357B2 (en) Intelligent automated agent for a contact center
US8775181B2 (en) Mobile speech-to-speech interpretation system
US8086463B2 (en) Dynamically generating a vocal help prompt in a multimodal application
US7487095B2 (en) Method and apparatus for managing user conversations
US6704708B1 (en) Interactive voice response system

Legal Events

Date Code Title Description
A711 Notification of change in applicant


Effective date: 20150325

A521 Written amendment


Effective date: 20150325

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151104

A131 Notification of reasons for refusal


Effective date: 20151117

A521 Written amendment


Effective date: 20160217

A02 Decision of refusal


Effective date: 20160419

A521 Written amendment


Effective date: 20160819

A911 Transfer of reconsideration by examiner before appeal (zenchi)


Effective date: 20160829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)


Effective date: 20160913

A61 First payment of annual fees (during grant procedure)


Effective date: 20161011

R150 Certificate of patent or registration of utility model

Ref document number: 6025785

Country of ref document: JP