JP6568813B2 - Information processing apparatus, voice recognition method, and program - Google Patents

Information processing apparatus, voice recognition method, and program Download PDF

Info

Publication number
JP6568813B2
JP6568813B2 JP2016032218A JP2016032218A JP6568813B2 JP 6568813 B2 JP6568813 B2 JP 6568813B2 JP 2016032218 A JP2016032218 A JP 2016032218A JP 2016032218 A JP2016032218 A JP 2016032218A JP 6568813 B2 JP6568813 B2 JP 6568813B2
Authority
JP
Japan
Prior art keywords
voice recognition
voice
recognition module
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016032218A
Other languages
Japanese (ja)
Other versions
JP2017151210A (en
Inventor
一比良 松井
一比良 松井
誠司 河村
誠司 河村
町田 健一
健一 町田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT TechnoCross Corp
Original Assignee
NTT TechnoCross Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT TechnoCross Corp filed Critical NTT TechnoCross Corp
Priority to JP2016032218A priority Critical patent/JP6568813B2/en
Publication of JP2017151210A publication Critical patent/JP2017151210A/en
Application granted granted Critical
Publication of JP6568813B2 publication Critical patent/JP6568813B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、音声認識方法及びプログラムに関する。   The present invention relates to an information processing apparatus, a speech recognition method, and a program.

コンタクトセンターやカスタマセンター等のコールセンターにおいて、オペレータと顧客との会話を文字(テキスト)に変換し、変換された文字(テキスト)を用いてオペレータの対応状況を分析・監視することが行われている。また、管理者(スーパーバイザー)がオペレータと顧客との会話をリアルタイムに監視し、オペレータの対応状況に応じてリアルタイムに適切な対処を行うという運用が行われている。   In a call center such as a contact center or customer center, conversation between an operator and a customer is converted into characters (text), and the operator's response status is analyzed and monitored using the converted characters (text). . In addition, an operation is performed in which a manager (supervisor) monitors conversations between an operator and a customer in real time and takes appropriate measures in real time according to the operator's response status.

なお、コールセンターに関する従来技術として例えば特許文献1に開示された技術がある。   For example, there is a technique disclosed in Patent Document 1 as a conventional technique related to a call center.

特開2015−211403号公報Japanese Patent Application Laid-Open No. 2015-211403

コールセンターにおいてオペレータが対応する顧客数は一定ではない。例えば、夜間よりも平日のほうが顧客からの問い合わせ件数が多い傾向にあり、また、平日よりも休日のほうが顧客からの問い合わせ件数が多い傾向にある。そのため、オペレータと顧客との会話を文字に変換する処理を行う情報処理装置の負荷は、日時によって変動することになる。   The number of customers handled by the operator at the call center is not constant. For example, the number of inquiries from customers tends to be higher on weekdays than at night, and the number of inquiries from customers tends to be higher on holidays than on weekdays. Therefore, the load on the information processing apparatus that performs processing for converting the conversation between the operator and the customer into characters varies depending on the date and time.

万が一情報処理装置のリソースが不足する場合、オペレータと顧客との会話をリアルタイムに変換する処理が行われず、コールセンターの管理者が適切な対処を行うことができないという問題が発生する可能性がある。解決方法として、顧客からの問い合わせ件数のピークに合わせて情報処理装置のリソースを十分に確保する方法も考えられるが、ハードウェアの増設等を伴うためコストが増大するという問題がある。   If the resources of the information processing apparatus are insufficient, there is a possibility that the process of converting the conversation between the operator and the customer in real time is not performed, and the call center manager cannot take appropriate measures. As a solution, there may be a method of securing sufficient resources of the information processing apparatus in accordance with the peak of the number of inquiries from customers, but there is a problem that the cost increases due to the addition of hardware.

本発明は上記に鑑みてなされたものであって、音声変換処理を行う情報処理装置の処理負荷の上昇を抑えることができる技術を提供することを目的とする。   The present invention has been made in view of the above, and an object of the present invention is to provide a technique capable of suppressing an increase in processing load of an information processing apparatus that performs voice conversion processing.

本発明の実施の形態に係る情報処理装置は、音声を文字に変換する処理を行う複数の音声認識モジュールを有する情報処理装置であって、音声の入力を受け付ける入力手段と、前記入力手段により音声の入力を受け付ける場合に、当該情報処理装置における処理負荷に基づき、前記複数の音声認識モジュールのうち所定の音声認識モジュールを選択する選択手段と、前記所定の音声認識モジュールにより、前記入力手段により受け付けた音声が変換された文字を出力する出力手段と、を有する。   An information processing apparatus according to an embodiment of the present invention is an information processing apparatus having a plurality of speech recognition modules that perform processing for converting speech into characters, and includes an input unit that receives speech input, and a voice that is input by the input unit. Is received by the input means by the selection means for selecting a predetermined voice recognition module from the plurality of voice recognition modules and the predetermined voice recognition module based on the processing load in the information processing apparatus. Output means for outputting a character obtained by converting the converted voice.

本発明の実施の形態によれば、音声変換処理を行う情報処理装置の処理負荷の上昇を抑えることができる技術が提供される。   According to the embodiment of the present invention, there is provided a technology capable of suppressing an increase in processing load of an information processing apparatus that performs voice conversion processing.

本実施の形態における情報処理装置の機能構成例を示す図である。It is a figure which shows the function structural example of the information processing apparatus in this Embodiment. DNNの構造を示す図である。It is a figure which shows the structure of DNN. 選択情報の一例を示す図である。It is a figure which shows an example of selection information. 実施の形態に係る情報処理装置が行う処理手順を示すフローチャートである。It is a flowchart which shows the process sequence which the information processing apparatus which concerns on embodiment performs. コールセンターの混雑度合いに応じて、選択される音声認識モジュールが変化する様子を示す図である。It is a figure which shows a mode that the voice recognition module selected changes according to the congestion degree of a call center. 選択情報(変形例)の一例を示す図である。It is a figure which shows an example of selection information (modification).

以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。以下の実施の形態は、コールセンターにおいて音声を文字に変換する処理を行う情報処理装置を例として説明するが、本発明の実施の形態は、これに限られず、音声を文字に変換する処理を行う情報処理装置全般に適用することが可能である。   Embodiments of the present invention will be described below with reference to the drawings. The embodiment described below is only an example, and the embodiment to which the present invention is applied is not limited to the following embodiment. In the following embodiments, an information processing apparatus that performs a process of converting speech into characters in a call center will be described as an example. However, embodiments of the present invention are not limited to this, and perform a process of converting speech into characters. The present invention can be applied to all information processing apparatuses.

<概要、機能構成>
本実施の形態に係る情報処理装置10は、音声を文字に変換する処理を行う複数の音声認識モジュールを有している。情報処理装置10は、オペレータと顧客との間の会話が開始されると、情報処理装置10自身の処理負荷に基づいて、複数の音声認識モジュールのうち適切な所定の音声認識モジュールを選択する。また、情報処理装置10は、選択された所定の音声認識モジュールを用いてオペレータと顧客との間の会話(音声)を文字に変換する処理を行う。
<Overview, functional configuration>
The information processing apparatus 10 according to the present embodiment has a plurality of speech recognition modules that perform processing for converting speech into characters. When the conversation between the operator and the customer is started, the information processing apparatus 10 selects an appropriate predetermined voice recognition module from among the plurality of voice recognition modules based on the processing load of the information processing apparatus 10 itself. Further, the information processing apparatus 10 performs processing for converting a conversation (voice) between the operator and the customer into characters using the selected predetermined voice recognition module.

図1は、本実施の形態における情報処理装置の機能構成例を示す図である。図1に示すように、情報処理装置10は、入力部101、負荷監視部102、選択部103、記憶部104、変換処理部105、及び出力部107を有する。また、変換処理部105は、複数の音声認識モジュール106を含む。これら各部は、情報処理装置10にインストールされた1以上のプログラムが、情報処理装置10のCPUに実行させる処理により実現される。なお、入力部101、負荷監視部102、選択部103、記憶部104、変換処理部105、及び出力部107ごとに、異なるコンピュータを用いて実現されてもよいし、更に細かい単位でコンピュータが分散されていてもよい。すなわち、情報処理装置10は、1又は複数のコンピュータを用いて実現されてもよい。また、当該1又は複数のコンピュータは、仮想化技術を利用した仮想サーバであってもよいし、クラウド上に実装された仮想サーバであってもよい。   FIG. 1 is a diagram illustrating a functional configuration example of the information processing apparatus according to the present embodiment. As illustrated in FIG. 1, the information processing apparatus 10 includes an input unit 101, a load monitoring unit 102, a selection unit 103, a storage unit 104, a conversion processing unit 105, and an output unit 107. The conversion processing unit 105 includes a plurality of voice recognition modules 106. Each of these units is realized by processing that one or more programs installed in the information processing apparatus 10 cause the CPU of the information processing apparatus 10 to execute. Note that each of the input unit 101, the load monitoring unit 102, the selection unit 103, the storage unit 104, the conversion processing unit 105, and the output unit 107 may be realized by using different computers, or the computers are distributed in finer units. May be. That is, the information processing apparatus 10 may be realized using one or a plurality of computers. In addition, the one or more computers may be virtual servers using virtualization technology, or may be virtual servers mounted on the cloud.

本実施の形態では、音声認識モジュール106として、DNN(深層学習技術:Deep Neural Network)を利用することで、精度(認識率)の高い変換処理を行う。また、当該複数の音声認識モジュール106は、それぞれ音声認識率及び変換速度が異なる。図1には、音声認識モジュール106として、DNN(1)106、DNN(2)106、DNN(3)106、DNN(4)106の4個の音声認識モジュール106が図示されている。DNN(1)106は音声認識率が最も高く(逆に変換速度は最も遅い)、DNN(1〜4)1061〜4の順に、音声認識率が低下する(逆に変換速度は速くなる)。なお、音声認識率が高い(変換速度が速い)DNNほど、音声変換処理に必要な処理負荷は高くなる。言い換えると、DNN(1〜4)1061〜4の順に処理負荷は低くなる。なお、複数の音声認識モジュール106の各々は、少なくとも一定の音声変換精度を有している前提とする。図1には4つのDNN(1〜4)1061〜4が図示されているが、DNNの数に制限はなく、5個以上のDNNを有していてもよい。以下、DNN(1〜4)1061〜4を区別しない場合は「DNN106」と呼ぶ。 In this embodiment, DNN (Deep Neural Network) is used as the speech recognition module 106 to perform conversion processing with high accuracy (recognition rate). The plurality of voice recognition modules 106 have different voice recognition rates and conversion speeds. In FIG. 1, four speech recognition modules 106 of DNN (1) 106 1 , DNN (2) 106 2 , DNN (3) 106 3 , DNN (4) 106 4 are shown as speech recognition modules 106. Yes. DNN (1) 106 1 has the highest speech recognition rate (conversely the conversion speed is slowest), and the voice recognition rate decreases in the order of DNN (1-4) 106 1-4 (conversely, the conversion speed becomes high). ). Note that a DNN having a higher voice recognition rate (faster conversion speed) has a higher processing load necessary for the voice conversion process. In other words, the processing load decreases in the order of DNN (1-4) 106 1-4 . It is assumed that each of the plurality of speech recognition modules 106 has at least a certain speech conversion accuracy. Although four DNNs (1 to 4) 106 1 to 4 are illustrated in FIG. 1, the number of DNNs is not limited and may include five or more DNNs. Hereinafter, when DNN (1-4) 106 1-4 is not distinguished, it is called "DNN106".

本実施の形態に係るDNN(1〜4)1061〜4は、図2に示すように、音声を入力する入力層と、文字を出力する出力層と、入力層と出力層との間に存在する隠れ層の複数の層から構成されている。また、各層は複数のユニットから構成されている。 As shown in FIG. 2, the DNN (1-4) 106 1-4 according to the present embodiment includes an input layer for inputting speech, an output layer for outputting characters, and an input layer and an output layer. It consists of multiple layers of existing hidden layers. Each layer is composed of a plurality of units.

基本的に、各層のユニット数が少なくなるとその計算量が削減される。計算量が少なくなることで、処理に必要な処理負荷もこれに応じて低くなる。一方で、各層のユニット数が少なくなることで音声認識率も低下することが想定されるが、各層のユニット数の削減比率に対して、音声認識率の劣化がほとんどないことが経験値として判明している(例えば、計算量が半分になっても音声認識率の劣化は数%程度である)。本実施の形態では、このような特性を利用することで、情報処理装置10自身の処理負荷が高い場合に計算量の少ない音声認識モジュール106を選択することで、一定の音声変換精度を保ちつつ、情報処理装置10自身の負荷上昇を抑えることを可能にする。図2に戻り説明を続ける。   Basically, when the number of units in each layer is reduced, the amount of calculation is reduced. By reducing the amount of calculation, the processing load required for processing is reduced accordingly. On the other hand, it is assumed that the speech recognition rate will decrease as the number of units in each layer decreases, but it has been found as an experience value that there is almost no deterioration in the speech recognition rate with respect to the reduction ratio of the number of units in each layer (For example, even if the calculation amount is halved, the deterioration of the speech recognition rate is about several percent). In the present embodiment, by using such characteristics, when the processing load of the information processing apparatus 10 itself is high, the speech recognition module 106 with a small amount of calculation is selected, while maintaining a certain speech conversion accuracy. This makes it possible to suppress an increase in the load on the information processing apparatus 10 itself. Returning to FIG.

入力部101は、オペレータと顧客との間で会話が開始される際に当該会話に係る音声の入力を受け付ける機能を有する。また、入力部101は、音声の入力を受け付ける際に、選択部103に対して、どの音声認識モジュール106(DNN(1〜4)1061〜4のいずれか1つ)に音声データを渡すべきかを問い合わせると共に、選択部103から指示された音声認識モジュール106に音声データを送信する。なお、入力部101は、一旦音声認識モジュール106に音声データを送信し始めた後は、オペレータと顧客との会話が終了するまで(つまり、音声のセッションが終了するまで)、同一の音声認識モジュール106に音声データを送信し続ける。つまり、本実施の形態における情報処理装置10では、一旦選択された音声認識モジュール106は、オペレータと顧客との間の会話が終了するまで変更されることはない。 The input unit 101 has a function of accepting voice input related to the conversation when the conversation is started between the operator and the customer. Further, when the input unit 101 accepts voice input, the voice data should be passed to which voice recognition module 106 (any one of DNN (1 to 4) 106 1 to 4) to the selection unit 103. And the voice data is transmitted to the voice recognition module 106 instructed by the selection unit 103. Note that the input unit 101 once transmits voice data to the voice recognition module 106 and then continues until the conversation between the operator and the customer ends (that is, until the voice session ends). Continue to transmit audio data to 106. That is, in the information processing apparatus 10 according to the present embodiment, once selected voice recognition module 106 is not changed until the conversation between the operator and the customer ends.

負荷監視部102は、情報処理装置10自身の処理負荷を監視する機能を有する。また、負荷監視部102は、選択部103からの問い合わせに応じて、情報処理装置10自身の処理負荷を通知する。   The load monitoring unit 102 has a function of monitoring the processing load of the information processing apparatus 10 itself. Further, the load monitoring unit 102 notifies the processing load of the information processing apparatus 10 itself in response to an inquiry from the selection unit 103.

選択部103は、入力部101からの問い合わせを受けて、どの音声認識モジュール106(図1の例では、DNN(1〜4)1061〜Nのいずれか1つ)に音声データを渡すべきかを指示する。より具体的には、選択部103は、入力部101からの問い合わせを受けた場合、情報処理装置10自身の処理負荷を負荷監視部102に問い合わせる。続いて、選択部103は、負荷監視部102から通知された処理負荷に対応する音声認識モジュール106を、後述する選択情報に従って選択し、選択した音声認識モジュール106を入力部101に指示する。 In response to the inquiry from the input unit 101, the selection unit 103 should pass the voice data to which voice recognition module 106 (in the example of FIG. 1, one of DNN (1 to 4) 106 1 to N ). Instruct. More specifically, when receiving an inquiry from the input unit 101, the selection unit 103 inquires of the load monitoring unit 102 about the processing load of the information processing apparatus 10 itself. Subsequently, the selection unit 103 selects a voice recognition module 106 corresponding to the processing load notified from the load monitoring unit 102 according to selection information described later, and instructs the input unit 101 of the selected voice recognition module 106.

記憶部104は、選択情報を格納する。記憶部104は、情報処理装置10が備える記憶装置(メモリ、HDD等)、情報処理装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。   The storage unit 104 stores selection information. The storage unit 104 can be realized by using a storage device (memory, HDD, or the like) included in the information processing apparatus 10, a storage device that can be connected to the information processing apparatus 10 via a network, or the like.

図3は、選択情報の一例を示す図である。選択情報には、情報処理装置10の処理負荷の範囲と、範囲ごとに選択すべき音声認識モジュール106とが対応づけられている。図3は、情報処理装置10の処理負荷としてCPU使用率が用いられる場合の選択情報の例を示している。より具体的には、図3の例では、CPU使用率が70%以下(又は未満)の場合、DNN(1)106を選択すべきであり、CPU使用率が70%〜80%の場合、DNN(2)106を選択すべきであり、CPU使用率が80%〜90%の場合、DNN(3)106を選択すべきであり、CPU使用率が90%以上(又は超える)の場合、DNN(4)106を選択すべきであることが示されている。 FIG. 3 is a diagram illustrating an example of selection information. The selection information is associated with the processing load range of the information processing apparatus 10 and the voice recognition module 106 to be selected for each range. FIG. 3 shows an example of selection information when the CPU usage rate is used as the processing load of the information processing apparatus 10. More specifically, in the example of FIG. 3, when the CPU usage rate is 70% or less (or less), DNN (1) 106 1 should be selected, and the CPU usage rate is 70% to 80%. should be selected DNN (2) 106 2, CPU utilization is 80% to 90%, should be selected DNN (3) 106 3, CPU utilization is 90% (or greater than) for, it has been shown that should select DNN (4) 106 4.

「変換速度」は、DNN106単位あたりの変換速度であり、数字が大きいほど音声を文字に変換する際の変換速度が速いことを意味している。「音声認識率」は、DNN106における音声認識率(音声から文字への変換精度)を意味している。「層、ユニット」は、DNN106の構造(いくつの層から構成され、各層にはいくつのユニットを有しているか)を示している。例えば、DNN(1)106は、10層及び2048ユニットから構成されていることを示している。「層、ユニット」に示されている数は一例であり、本実施の形態では、どのような数も取り得る。なお、「変換速度」、「音声認識率」及び「層、ユニット」は、DNN106に関する参考情報であるため、選択情報に含まれていなくてもよい。図3に示す選択情報は一例であり、変換処理部105に5個以上のDNN106が含まれる場合、DNN106の数に応じて、選択情報に設定される情報処理装置10の処理負荷の範囲は、更に細かく分割されていてもよい。 The “conversion speed” is a conversion speed per DNN 106 unit, and means that the higher the number, the faster the conversion speed when converting speech into characters. “Voice recognition rate” means the voice recognition rate (conversion accuracy from voice to characters) in the DNN 106. “Layer, unit” indicates the structure of DNN 106 (how many layers are formed, and how many units are included in each layer). For example, DNN (1) 106 1 indicates that it is composed of 10 layers and 2048 units. The numbers shown in “layer, unit” are merely examples, and any number can be taken in the present embodiment. Note that “conversion speed”, “voice recognition rate”, and “layer, unit” are reference information regarding the DNN 106, and thus may not be included in the selection information. The selection information illustrated in FIG. 3 is an example. When the conversion processing unit 105 includes five or more DNNs 106, the range of the processing load of the information processing apparatus 10 set in the selection information according to the number of DNNs 106 is as follows. It may be further finely divided.

変換処理部105は、入力部101から受信した音声を文字に変換する処理を行う。前述の通り、変換処理部105は、複数の音声認識モジュール106(DNN(1〜4)1061〜4)を含む。音声認識モジュール106は、例えば、入力部101から受信した音声データを分析することで音響特徴を抽出し、抽出した音響特徴を文章に変換する処理を行うことで、音声を文字に変換するようにしてもよい。 The conversion processing unit 105 performs processing for converting the voice received from the input unit 101 into characters. As described above, the conversion processing unit 105 includes a plurality of speech recognition modules 106 (DNN (1-4) 106 1-4 ). For example, the voice recognition module 106 analyzes the voice data received from the input unit 101 to extract an acoustic feature, and converts the extracted acoustic feature into a sentence, thereby converting the voice into a character. May be.

出力部107は、音声認識モジュール106により変換された文字を出力する機能を有する。   The output unit 107 has a function of outputting characters converted by the voice recognition module 106.

<動作例>
図4は、実施の形態に係る情報処理装置が行う処理手順を示すフローチャートである。図4を用いて、本実施の形態に係る情報処理装置10が行う処理手順を説明する。
<Operation example>
FIG. 4 is a flowchart illustrating a processing procedure performed by the information processing apparatus according to the embodiment. A processing procedure performed by the information processing apparatus 10 according to the present embodiment will be described with reference to FIG.

ステップS101で、入力部101は、顧客からの問い合わせが発生し、オペレータと顧客との間で会話が開始される際に、当該会話に係る音声の入力を受け付ける。   In step S <b> 101, the input unit 101 receives an input of voice related to a conversation when an inquiry from the customer is generated and a conversation is started between the operator and the customer.

ステップS102で、入力部101は、選択部103に対し、どの音声認識モジュール106に音声データを送信すべきかを問い合わせる。続いて、選択部103は、負荷監視部102に、情報処理装置10自身の処理負荷を問い合わせる。   In step S <b> 102, the input unit 101 inquires of the voice recognition module 106 to which voice data should be transmitted to the selection unit 103. Subsequently, the selection unit 103 inquires of the load monitoring unit 102 about the processing load of the information processing apparatus 10 itself.

ステップS103で、選択部103は、選択情報を用いて、負荷監視部102から通知された情報処理装置10自身の処理負荷に対応する音声認識モジュール106(DNN(1〜4)1061〜4のいずれか1つ)を選択する。例えば、選択情報に図3に示す情報が格納されている場合において、負荷監視部102から通知された処理負荷が60%であった場合、選択部103は、音声認識モジュール106としてDNN(1)106を選択することになる。また、例えば、負荷監視部102から通知された処理負荷が95%であった場合、選択部103は、音声認識モジュール106としてDNN(4)106を選択することになる。 In step S <b> 103, the selection unit 103 uses the selection information to correspond to the processing load of the information processing apparatus 10 itself notified from the load monitoring unit 102, which corresponds to the voice recognition module 106 (DNN (1-4) 106 1-4 . Any one). For example, when the information shown in FIG. 3 is stored in the selection information, if the processing load notified from the load monitoring unit 102 is 60%, the selection unit 103 uses the DNN (1) as the voice recognition module 106. 106 1 is selected. For example, when notified process load from the load monitoring unit 102 was 95%, the selection unit 103 will select the DNN (4) 106 4 as the speech recognition module 106.

ステップS104で、選択部103は、ステップS103の処理手順で選択した音声認識モジュール106を入力部101に通知する。入力部101は、通知された音声認識モジュール106に音声データを送信する。音声認識モジュール106は、入力部101から受信した音声データを分析して文字に変換する処理を行う。   In step S104, the selection unit 103 notifies the input unit 101 of the voice recognition module 106 selected in the processing procedure of step S103. The input unit 101 transmits voice data to the notified voice recognition module 106. The voice recognition module 106 performs processing of analyzing voice data received from the input unit 101 and converting it into characters.

ステップS105で、出力部107は、音声認識モジュール106で変換された文字を出力する。   In step S <b> 105, the output unit 107 outputs the characters converted by the voice recognition module 106.

以上説明したステップS101乃至ステップS105の処理手順は、顧客からの問い合わせが発生してオペレータと顧客との間で会話が開始される度に、すなわち、入力部101で新たに音声の入力を受け付ける度に繰り返し行われる。   The processing procedure from step S101 to step S105 described above is performed every time an inquiry from a customer occurs and a conversation is started between the operator and the customer, that is, every time a new voice input is received by the input unit 101. Repeatedly.

図5は、コールセンターの混雑度合いに応じて、選択される音声認識モジュールが変化する様子を示す図である。   FIG. 5 is a diagram showing how the selected voice recognition module changes according to the congestion degree of the call center.

夜間など、顧客からの問い合わせ件数が少ない場合(図5の左側の状態)、情報処理装置10の処理負荷は低い状態であるため、各会話を文字に変換する処理において、最も音声認識率の高い音声認識モジュール106であるDNN(1)106が選択されることになる。 When the number of inquiries from customers is small, such as at night (the state on the left side of FIG. 5), the processing load on the information processing apparatus 10 is low, so the highest speech recognition rate is achieved in the process of converting each conversation into characters. The DNN (1) 106 1 that is the voice recognition module 106 is selected.

次に、顧客からの問い合わせ件数が増加してきた場合(図5の中央の状態)、情報処理装置10の処理負荷は徐々に上昇するため、顧客からの新たな問い合わせに係る会話を文字に変換する処理において、DNN(1)106よりも計算量が少ない(DNN(1)106よりも音声認識率が低く、かつ処理速度が高い)音声認識モジュール106であるDNN(2)106又はDNN(3)106が選択されることになる。なお、図5の中央の例には、選択された音声認識モジュール106としてDNN(1)106が図示されている。これは、前述の通り、一旦選択された音声認識モジュール106は、オペレータと顧客との間の会話が終了するまで変更されることはないことから、図5の左側の状態であった際に選択されたDNN(1)106が、図5の中央の状態に移行した後もそのまま動作し続けることがあり得るということを示したものである。 Next, when the number of inquiries from customers has increased (the state in the center of FIG. 5), the processing load of the information processing apparatus 10 gradually increases, so the conversation related to new inquiries from customers is converted into characters. in the process, DNN (1) 106 is smaller calculation amount than 1 (DNN (1) 106 low speech recognition rate than 1, and processing speed is high) DNN (2) is a speech recognition module 106 106 2 or DNN (3) 106 3 is selected. Incidentally, the example of the center of FIG. 5, DNN (1) 106 1 is illustrated as a speech recognition module 106 which is selected. As described above, since the voice recognition module 106 once selected is not changed until the conversation between the operator and the customer is finished, it is selected when the voice recognition module 106 is in the state on the left side of FIG. This shows that the DNN (1) 106 1 thus made may continue to operate even after shifting to the center state of FIG.

次に、休日や日中帯など、更に顧客からの問い合わせ件数が増加してきた場合(図5の右側の状態)、情報処理装置10の処理負荷は更に上昇するため、顧客からの新たな問い合わせに係る会話を文字に変換する処理において、DNN(3)106よりも計算量が少ない(DNN(3)106よりも音声認識率が低く、かつ処理速度が高い)音声認識モジュール106であるDNN(4)106が選択されることになる。 Next, when the number of inquiries from customers has increased further, such as on holidays or during the daytime (the state on the right side of FIG. 5), the processing load on the information processing apparatus 10 further increases, so new inquiries from customers are made. in the process of converting the conversation of the character, the amount of calculation than DNN (3) 106 3 is less (DNN (3) 106 3 lower speech recognition rate than, and higher processing speed) DNN a speech recognition module 106 (4) so that the 106 4 is selected.

なお、選択部103は、選択したDNN106の組み合わせ(例えば、図5の中央のように、DNN(1)1061、DNN(2)106及びDNN(3)106を、それぞれ2つ、3つ及び1つ選択している等)と、情報処理装置10自身の処理負荷とを対応づけて随時履歴に保存しておくようにしてもよい。また、選択部103は、新たにDNN106の何れかを選択した際に情報処理装置10自身の処理負荷の変化が少ない場合(例えば所定の閾値未満の場合)は、次にDNN106を選択する際に、より音声認識率が高いDNN106を選択するようにしてもよい。逆に、選択部103は、新たにDNN106の何れかを選択した際に情報処理装置10自身の処理負荷の変化が大きい場合(例えば所定の閾値以上の場合)は、次にDNN106を選択する際に、音声認識率が低いDNN106を選択するようにしてもよい。これにより、選択部103は、DNN106の組み合わせと処理負荷との対応関係をさまざまに学習することができ、より精度の高いDNN選択方式を実現することが可能になる。 Note that the selection unit 103 includes two combinations of the selected DNN 106 (for example, two DNN (1) 106 1, DNN (2) 106 2, and DNNN (3) 106 3 as shown in the center of FIG. And the processing load of the information processing apparatus 10 itself may be associated with each other and stored in the history as needed. In addition, when a change in the processing load of the information processing apparatus 10 itself is small when the selection unit 103 newly selects any of the DNNs 106 (for example, less than a predetermined threshold value), the selection unit 103 next selects the DNN 106. Alternatively, the DNN 106 having a higher voice recognition rate may be selected. On the contrary, when the selection unit 103 newly selects any of the DNNs 106 and the change in the processing load of the information processing apparatus 10 itself is large (for example, when it is equal to or greater than a predetermined threshold), the selection unit 103 next selects the DNNs 106. Alternatively, the DNN 106 having a low voice recognition rate may be selected. As a result, the selection unit 103 can learn various correspondence relationships between the combinations of the DNNs 106 and the processing loads, and can realize a DNN selection method with higher accuracy.

以上説明したように、本実施の形態に係る情報処理装置10は、オペレータと顧客と間で同時に行われている会話数(同時に対応中の顧客数)が増加するに従って、計算量が少ない(音声認識率が低く、かつ処理速度が高い)音声認識モジュール106を用いて音声変換処理を行うように動作する。これにより、本実施の形態に係る情報処理装置10は、一定の音声変換精度を保ちつつ、情報処理装置10自身の処理負荷の上昇を抑えることができる。また、本実施の形態に係る情報処理装置10は、自身の処理負荷の上昇を抑えると共に、自身で行っている音声変換処理の処理速度の平均を、一定速度以上に保つことができる。   As described above, the information processing apparatus 10 according to the present embodiment has a smaller amount of calculation as the number of conversations simultaneously performed between the operator and the customer (the number of customers who are simultaneously supported) increases (speech) The speech conversion module 106 operates so as to perform speech conversion processing (with a low recognition rate and a high processing speed). Thereby, the information processing apparatus 10 according to the present embodiment can suppress an increase in the processing load of the information processing apparatus 10 itself while maintaining a certain voice conversion accuracy. In addition, the information processing apparatus 10 according to the present embodiment can suppress an increase in its processing load and can keep the average processing speed of the voice conversion processing performed by itself at a certain speed or higher.

<変形例>
以上説明した実施の形態では、情報処理装置10の処理負荷としてCPU使用率を用いるようにしたが、CPU使用率に代えて、他のパラメータを用いるようにしてもよい。例えば、情報処理装置10は、CPU使用率に代えて、DNN106のプロセス数に基づいて音声認識モジュール106を選択するようにしてもよい。本実施の形態に係る情報処理装置10は、オペレータと顧客との会話ごとに、DNN106のプロセスが1つ起動するように動作することを想定しているため、プロセス数=同時に対応中の顧客数と言うこともできる。
<Modification>
In the embodiment described above, the CPU usage rate is used as the processing load of the information processing apparatus 10, but other parameters may be used instead of the CPU usage rate. For example, the information processing apparatus 10 may select the voice recognition module 106 based on the number of processes of the DNN 106 instead of the CPU usage rate. Since the information processing apparatus 10 according to the present embodiment assumes that one process of the DNN 106 is activated for each conversation between the operator and the customer, the number of processes = the number of customers who are simultaneously supporting It can also be said.

本変形例では、図6(a)に示すように、選択情報には、CPU使用率に代えてプロセス数が格納される。また、本変形例に係る負荷監視部102は、CPU使用率に代えて、DNN106のプロセス数を監視するように動作する。また、本変形例に係る選択部103は、選択情報を用いて、負荷監視部102から通知されたプロセス数に対応する音声認識モジュール106を選択するように動作する。   In this modification, as shown in FIG. 6A, the selection information stores the number of processes instead of the CPU usage rate. Further, the load monitoring unit 102 according to the present modification operates so as to monitor the number of processes of the DNN 106 instead of the CPU usage rate. Further, the selection unit 103 according to the present modification operates to select the voice recognition module 106 corresponding to the number of processes notified from the load monitoring unit 102 using the selection information.

また、情報処理装置10の処理負荷としてCPU使用率と他のパラメータとを併用するようにしてもよい。例えば、情報処理装置10は、CPU使用率と、DNN106のプロセス数との両方に基づいて音声認識モジュール106を選択するようにしてもよい。   Further, the CPU usage rate and other parameters may be used together as the processing load of the information processing apparatus 10. For example, the information processing apparatus 10 may select the voice recognition module 106 based on both the CPU usage rate and the number of processes of the DNN 106.

この場合、選択情報には、図6(b)に示すように、CPU使用率とプロセス数との両方が格納される。また、本変形例に係る負荷監視部102は、CPU使用率及びプロセス数の両方を監視するように動作する。また、本変形例に係る選択部103は、選択情報を用いて、負荷監視部102から通知されたCPU使用率に対応する音声認識モジュール106と、負荷監視部102から通知されたプロセス数に対応する音声認識モジュール106とを選択すると共に、更に、選択した2つの音声認識モジュール106のうち、計算量が少ない(音声認識率が低く、かつ処理速度が高い)音声認識モジュール106、又は、計算量が多い(音声認識率が高く、かつ処理速度が遅い)音声認識モジュール106を選択するように動作する。   In this case, as shown in FIG. 6B, both the CPU usage rate and the number of processes are stored in the selection information. In addition, the load monitoring unit 102 according to the present modification operates to monitor both the CPU usage rate and the number of processes. In addition, the selection unit 103 according to this modification uses the selection information to correspond to the voice recognition module 106 corresponding to the CPU usage rate notified from the load monitoring unit 102 and the number of processes notified from the load monitoring unit 102. The speech recognition module 106 to be selected, and, of the two selected speech recognition modules 106, the speech recognition module 106 having a small calculation amount (low speech recognition rate and high processing speed), or the calculation amount It operates to select the speech recognition module 106 with a large number (high speech recognition rate and low processing speed).

<実施形態の補足>
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。実施の形態で述べた処理手順は、矛盾の無い限り順序を入れ替えてもよい。
<Supplement of embodiment>
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims. The processing procedures described in the embodiments may be switched in order as long as there is no contradiction.

以上、実施の形態に係る情報処理装置10の各機能部は、これらが備えるCPU及びメモリなどのハードウェア資源を用いて、情報処理装置10で実施される処理に対応するプログラムを実行することによって実現することが可能である。また、当該プログラムは、記憶媒体に格納することができる。   As described above, each functional unit of the information processing apparatus 10 according to the embodiment executes a program corresponding to the process executed by the information processing apparatus 10 by using hardware resources such as a CPU and a memory included in the information processing apparatus 10. It is possible to realize. Further, the program can be stored in a storage medium.

10 情報処理装置
101 入力部
102 負荷監視部
103 選択部
104 記憶部
105 変換処理部
106 音声認識モジュール
107 出力部
DESCRIPTION OF SYMBOLS 10 Information processing apparatus 101 Input part 102 Load monitoring part 103 Selection part 104 Storage part 105 Conversion processing part 106 Voice recognition module 107 Output part

Claims (6)

音声を文字に変換する処理を行う複数の音声認識モジュールを有する情報処理装置であって、
音声の入力を受け付ける入力手段と、
前記入力手段により音声の入力を受け付ける場合に、当該情報処理装置における処理負荷に基づき、前記複数の音声認識モジュールの中から音声認識モジュールを選択する選択手段と、
前記選択手段により選択された音声認識モジュールにより、前記入力手段により受け付けた音声が変換された文字を出力する出力手段と、を有し、
前記選択手段は、
選択した音声認識モジュールにより前記音声を変換した場合に前記情報処理装置における処理負荷の変化が所定の閾値未満であるときは、次の音声認識モジュールとして、より音声認識率が高い音声認識モジュールを選択し、
選択した音声認識モジュールにより前記音声を変換した場合に前記情報処理装置における処理負荷の変化が所定の閾値以上であるときは、次の音声認識モジュールとして、より音声認識率が低い音声認識モジュールを選択する、情報処理装置。
An information processing apparatus having a plurality of speech recognition modules that perform processing for converting speech into characters,
Input means for receiving voice input;
A selection unit that selects a voice recognition module from the plurality of voice recognition modules based on a processing load in the information processing apparatus when receiving an input of voice by the input unit;
An output means for outputting a character obtained by converting the voice received by the input means by the voice recognition module selected by the selection means ;
The selection means includes
When the voice is converted by the selected voice recognition module, if the change in processing load in the information processing apparatus is less than a predetermined threshold, a voice recognition module with a higher voice recognition rate is selected as the next voice recognition module And
When the voice is converted by the selected voice recognition module, if the change in the processing load in the information processing apparatus is equal to or greater than a predetermined threshold, a voice recognition module with a lower voice recognition rate is selected as the next voice recognition module An information processing apparatus.
前記複数の音声認識モジュールは、それぞれ異なる音声認識率及び異なる変換速度で変換処理を行い、
前記選択手段は、前記処理負荷の高さの範囲に応じた音声認識率及び変換速度で変換処理を行う音声認識モジュールを選択する、
請求項1に記載の情報処理装置。
The plurality of voice recognition modules perform conversion processing at different voice recognition rates and different conversion speeds, respectively.
The selection means selects a speech recognition module that performs conversion processing at a speech recognition rate and a conversion speed according to the range of the processing load height.
The information processing apparatus according to claim 1.
前記選択手段は、前記処理負荷の高さの範囲と前記音声認識モジュールが変換処理を行っているプロセス数とに応じた音声認識率及び変換速度で変換処理を行う音声認識モジュールを選択する、請求項2に記載の情報処理装置。The selection unit selects a speech recognition module that performs conversion processing at a speech recognition rate and a conversion speed according to a range of the processing load height and the number of processes in which the speech recognition module performs conversion processing. Item 3. The information processing device according to Item 2. 前記音声認識モジュールは、DNN(Deep Neural Network)により音声を文字に変換する処理を行う、請求項1乃至3の何れか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 3, wherein the voice recognition module performs a process of converting voice into characters by a DNN (Deep Neural Network). 音声を文字に変換する処理を行う複数の音声認識モジュールを有する情報処理装置が実行する音声認識方法であって、
音声の入力を受け付ける入力ステップと、
前記入力ステップにより音声の入力を受け付ける場合に、当該情報処理装置における処理負荷に基づき、前記複数の音声認識モジュールの中から音声認識モジュールを選択する選択ステップと、
前記選択ステップにより選択された音声認識モジュールにより、前記入力ステップにより受け付けた音声が変換された文字を出力する出力ステップと、を有し、
前記選択ステップは、
選択した音声認識モジュールにより前記音声を変換した場合に前記情報処理装置における処理負荷の変化が所定の閾値未満であるときは、次の音声認識モジュールとして、より音声認識率が高い音声認識モジュールを選択し、
選択した音声認識モジュールにより前記音声を変換した場合に前記情報処理装置における処理負荷の変化が所定の閾値以上であるときは、次の音声認識モジュールとして、より音声認識率が低い音声認識モジュールを選択する、音声認識方法。
A speech recognition method executed by an information processing apparatus having a plurality of speech recognition modules that perform processing for converting speech into characters,
An input step for receiving voice input;
A selection step of selecting a speech recognition module from the plurality of speech recognition modules based on a processing load in the information processing apparatus when receiving an input of speech in the input step;
An output step of outputting a character obtained by converting the voice received in the input step by the voice recognition module selected in the selection step ;
The selection step includes
When the voice is converted by the selected voice recognition module, if the change in processing load in the information processing apparatus is less than a predetermined threshold, a voice recognition module with a higher voice recognition rate is selected as the next voice recognition module And
When the voice is converted by the selected voice recognition module, if the change in the processing load in the information processing apparatus is equal to or greater than a predetermined threshold, a voice recognition module with a lower voice recognition rate is selected as the next voice recognition module to, voice recognition method.
コンピュータを、請求項1乃至のいずれか一項に記載の情報処理装置の各手段として機能させるためのプログラム。 The program for functioning a computer as each means of the information processing apparatus as described in any one of Claims 1 thru | or 4 .
JP2016032218A 2016-02-23 2016-02-23 Information processing apparatus, voice recognition method, and program Active JP6568813B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032218A JP6568813B2 (en) 2016-02-23 2016-02-23 Information processing apparatus, voice recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032218A JP6568813B2 (en) 2016-02-23 2016-02-23 Information processing apparatus, voice recognition method, and program

Publications (2)

Publication Number Publication Date
JP2017151210A JP2017151210A (en) 2017-08-31
JP6568813B2 true JP6568813B2 (en) 2019-08-28

Family

ID=59739665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032218A Active JP6568813B2 (en) 2016-02-23 2016-02-23 Information processing apparatus, voice recognition method, and program

Country Status (1)

Country Link
JP (1) JP6568813B2 (en)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629075B1 (en) * 2000-06-09 2003-09-30 Speechworks International, Inc. Load-adjusted speech recogintion
JP4639533B2 (en) * 2001-06-08 2011-02-23 ソニー株式会社 Voice recognition apparatus, voice recognition method, program, and recording medium
DE10158583A1 (en) * 2001-11-29 2003-06-12 Philips Intellectual Property Procedure for operating a barge-in dialog system
TWI245259B (en) * 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
JP2011232619A (en) * 2010-04-28 2011-11-17 Ntt Docomo Inc Voice recognition device and voice recognition method
WO2011148594A1 (en) * 2010-05-26 2011-12-01 日本電気株式会社 Voice recognition system, voice acquisition terminal, voice recognition distribution method and voice recognition program
CN103971687B (en) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 Implementation of load balancing in a kind of speech recognition system and device
WO2019016938A1 (en) * 2017-07-21 2019-01-24 三菱電機株式会社 Speech recognition device and speech recognition method

Also Published As

Publication number Publication date
JP2017151210A (en) 2017-08-31

Similar Documents

Publication Publication Date Title
JP7285949B2 (en) Systems and methods for assisting agents via artificial intelligence
US20180121766A1 (en) Enhanced human/machine workforce management using reinforcement learning
US10162844B1 (en) System and methods for using conversational similarity for dimension reduction in deep analytics
US11665560B2 (en) Automated network voice testing platform
EP3377432B1 (en) A method and an apparatus for determining an allocation decision for at least one elevator
US20120102224A1 (en) Optimized consumption of third-party web services in a composite service
Butakov et al. Multitenant approach to crawling of online social networks
CN110598871A (en) Method and system for flexibly controlling service flow under micro-service architecture
CN114448989B (en) Method, device, electronic equipment, storage medium and product for adjusting message distribution
JP6568813B2 (en) Information processing apparatus, voice recognition method, and program
Liu et al. Universal scaling of distributed queues under load balancing in the super-Halfin-Whitt regime
US20170141949A1 (en) Method and apparatus for processing alarm information in cloud computing
US11800016B2 (en) System and method for adaptive cloud conversation platform
WO2020240680A1 (en) Failure estimation support device, failure estimation support method, and failure estimation support program
Banerjee et al. Priority based K-Erlang distribution method in cloud computing
EP4030736A1 (en) Load balancing system, method and apparatus, and storage medium
CN106899308B (en) Software and hardware combined self-adaptive real-time gzip data decompression method and system
JP2016177365A (en) Data processing device, data processing method and program
CN105393221A (en) Automatic Adjustment Of Application Launch Endpoints
JP2024506448A (en) Confidence classifier in the context of intent classification
WO2016086818A1 (en) Method for dividing hard disk domains in memory array, controller and memory array
JP2005148799A (en) Method for processing information, method for deriving service time and method for adjusting number of processing unit
US11032375B2 (en) Automatic scaling for communications event access through a stateful interface
US10708348B2 (en) High availability in packet processing for high-speed networks
US10120730B2 (en) Load control device and load control method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190805

R150 Certificate of patent or registration of utility model

Ref document number: 6568813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250