JP2022013032A - Information processing device, control method, and program - Google Patents

Information processing device, control method, and program Download PDF

Info

Publication number
JP2022013032A
JP2022013032A JP2020115311A JP2020115311A JP2022013032A JP 2022013032 A JP2022013032 A JP 2022013032A JP 2020115311 A JP2020115311 A JP 2020115311A JP 2020115311 A JP2020115311 A JP 2020115311A JP 2022013032 A JP2022013032 A JP 2022013032A
Authority
JP
Japan
Prior art keywords
voice
data
information processing
voice recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020115311A
Other languages
Japanese (ja)
Other versions
JP2022013032A5 (en
Inventor
敬己 下郡山
Itsuki Shimokooriyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2020115311A priority Critical patent/JP2022013032A/en
Publication of JP2022013032A publication Critical patent/JP2022013032A/en
Publication of JP2022013032A5 publication Critical patent/JP2022013032A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

To provide a mechanism that determines a word to be used for voice recognition in accordance with contents of voice data, thereby acquiring an appropriate voice recognition result.SOLUTION: In an information processing system, an information processing server 100 is connected to a recognition server 101 that performs voice recognition on voice data so as to communicate with each other, and includes a recognition pattern determination unit 302 that, in accordance with a data item recognized from the voice data, determines a word related to the data item to be used for the voice recognition, and a pattern processing unit 304 that acquires a value of the data item based on a result of the voice recognition performed by the voice recognition device by using the determined word.SELECTED DRAWING: Figure 3

Description

本発明は、音声データを文字列に変換する音声認識の技術に関する。 The present invention relates to a speech recognition technique for converting speech data into a character string.

従来から情報処理装置に対する入力作業を効率化する等の目的で音声認識の技術が使用されてきている。近年は、機械学習などの技術により、音声認識においてもかなり精度が向上してきた。 Conventionally, speech recognition technology has been used for the purpose of improving the efficiency of input work for information processing devices. In recent years, technologies such as machine learning have significantly improved the accuracy of speech recognition.

クラウドサービスなどでは大量のデータを人間が解析し機械学習のトレーニングデータとすることで更なる精度向上を達成しているが、それでもユーザが用途に応じてカスタマイズする必要は残っている。 In cloud services and the like, humans analyze a large amount of data and use it as training data for machine learning to further improve accuracy, but there is still a need for users to customize it according to their needs.

また用途に応じて単語登録する場合もある。特に珍しい人名や組織独自の部署名、商品名など固有名詞は一般的な辞書に入っておらず、発音と対応づけて登録することもある。また一般的な用語ではあるが同音異表記が多い場合などは必ずしも発音と対応づける必要はないが優先度を上げるために登録する場合もある。 In addition, words may be registered depending on the purpose. In particular, rare person names, organization-specific department names, product names, and other proper nouns are not included in general dictionaries, and may be registered in association with pronunciation. In addition, although it is a general term, it is not always necessary to associate it with pronunciation when there are many homophones and allography, but it may be registered in order to raise the priority.

音声認識サービスにおける単語登録は幾つかの方式がある。 There are several methods for word registration in speech recognition services.

あるサービスでは、事前に必要な単語を登録しておき、一連の音声認識要求を繰り返す。この方法では、個々の音声認識要求の内容に対して事前に登録した同一の単語情報を使用するため、同音異表記語があっても適切に使い分けられない場合がある。 In one service, necessary words are registered in advance, and a series of voice recognition requests are repeated. In this method, the same word information registered in advance for the content of each voice recognition request is used, so even if there are homophones and different notations, they may not be used properly.

また他のサービスの例では音声認識を要求する毎に、サービスに渡す音声データの内容に応じて登録する単語を入れ替え可能な方法もある。この方法では、登録可能な単語数が比較的少数に制限されているため、個々の音声認識要求に適切な単語を選択しなければならない。 In another example of the service, there is also a method in which the registered word can be exchanged according to the content of the voice data to be passed to the service each time the voice recognition is requested. In this method, the number of words that can be registered is limited to a relatively small number, so it is necessary to select an appropriate word for each speech recognition request.

特許文献1に記載の技術は、登録候補となる単語を試しに登録して、評価用音声データの音声認識を行った上で効果を人間に提示し、人間が単語登録した方が良いと判断した場合に、単語辞書に追加登録するものである。 In the technique described in Patent Document 1, it is judged that it is better to register a word as a candidate for registration as a trial, perform voice recognition of evaluation voice data, present the effect to a human, and register the word by the human. If this is the case, it will be additionally registered in the word dictionary.

特開2018-40906号公報Japanese Unexamined Patent Publication No. 2018-40906

特許文献1の技術は、登録すべきと判断された単語は、事前に全て登録するものである。しかしながらこの方式では、登録された単語は、いかなる音声データにも影響を及ぼすため、結果として音声認識の全体的な精度向上には有効である可能性が高いが、個々の音声認識要求に適切な結果を返さない可能性がある。即ち全体最適とする代わりに部分先的とはならない可能性があるのである。 In the technique of Patent Document 1, all the words determined to be registered are registered in advance. However, in this method, the registered word affects any speech data, and as a result, it is likely to be effective in improving the overall accuracy of speech recognition, but it is suitable for individual speech recognition requests. May not return results. That is, there is a possibility that it will not be partial, instead of being totally optimized.

本発明の目的は、音声データの内容に応じて音声認識に用いる単語を決定することで適切な音声認識結果を取得する仕組みを提供することである。 An object of the present invention is to provide a mechanism for acquiring an appropriate voice recognition result by determining a word to be used for voice recognition according to the content of voice data.

本発明は、音声データから音声認識する音声認識装置と通信可能に接続された情報処理装置であって、音声データから認識されるデータ項目に応じて、音声認識で用いる前記データ項目にかかる単語を決定する決定手段と、前記決定された単語を用いて前記音声認識装置が音声認識した結果に基づいて、データ項目の値を取得する取得手段とを備えることを特徴とする。 The present invention is an information processing device communicably connected to a voice recognition device that recognizes voice from voice data, and a word related to the data item used in voice recognition is used according to the data item recognized from the voice data. It is characterized by comprising a determination means for determining and an acquisition means for acquiring a value of a data item based on the result of voice recognition by the voice recognition device using the determined word.

本発明により、音声データの内容に応じて音声認識に用いる単語を決定することで適切な音声認識結果を取得する仕組みを提供することが可能となる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide a mechanism for acquiring an appropriate speech recognition result by determining a word to be used for speech recognition according to the content of speech data.

本発明の実施形態に係る情報処理システムの構成の一例を示す図である。It is a figure which shows an example of the structure of the information processing system which concerns on embodiment of this invention. 本発明の実施形態に係る情報処理サーバ100、認識サーバ101、情報処理端末102に適用可能なハードウェア構成の一例を示すブロック図である。FIG. 3 is a block diagram showing an example of a hardware configuration applicable to the information processing server 100, the recognition server 101, and the information processing terminal 102 according to the embodiment of the present invention. 本発明の実施形態に係る機能構成の一例を示す図である。It is a figure which shows an example of the functional structure which concerns on embodiment of this invention. 本発明の実施形態に係わる情報処理端末102のユーザインタフェースの一例である。This is an example of the user interface of the information processing terminal 102 according to the embodiment of the present invention. 本発明の実施形態に係わる情報処理端末102のユーザインタフェースの一例である。This is an example of the user interface of the information processing terminal 102 according to the embodiment of the present invention. 本発明の実施形態に係る音声認識の処理を説明するフローチャートの一例である。It is an example of the flowchart explaining the process of voice recognition which concerns on embodiment of this invention. 本発明の実施形態に係る登録する単語を決定する処理を説明するフローチャートの一例である。It is an example of the flowchart explaining the process of determining the word to be registered which concerns on embodiment of this invention. 本発明の実施形態に係る音声認識する項目と関連する情報を対応づけて格納する記憶部の一例を示す図である。It is a figure which shows an example of the storage part which stores the information which is associated with the voice recognition item which concerns on embodiment of this invention. 本発明の実施形態に係るユーザが入力する音声データと音声認識結果の一例を示す図である。It is a figure which shows an example of the voice data input by the user and the voice recognition result which concerns on embodiment of this invention.

以下、本発明の実施の形態を、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の実施形態に係る情報処理システムの構成の一例を示す図である。 FIG. 1 is a diagram showing an example of a configuration of an information processing system according to an embodiment of the present invention.

情報処理端末102、情報処理サーバ100、認識サーバ101は、ネットワーク103を介して通信可能に接続されている。ネットワーク103とは、例えばインターネットやLANである。 The information processing terminal 102, the information processing server 100, and the recognition server 101 are communicably connected via the network 103. The network 103 is, for example, the Internet or a LAN.

情報処理端末102は、パーソナルコンピュータ、またはスマートフォンであって、本願発明におけるユーザインタフェースを構成するアプリケーションがインストールされている、あるいは情報処理サーバ100が提供するウェブアプリケーションを実行するためのウェブブラウザソフトウェアがインストールされており、特定のURLを指定することで当該ウェブアプリケーションにアクセスする。 The information processing terminal 102 is a personal computer or a smartphone, and the application constituting the user interface in the present invention is installed, or the web browser software for executing the web application provided by the information processing server 100 is installed. The web application is accessed by specifying a specific URL.

また情報処理端末102は、本願発明における音声データを入力するためのマイクを内蔵または外部機器として接続している。また後述する目的で使用するカメラも内蔵、または外部機器として接続していても良い。 Further, the information processing terminal 102 is connected to a microphone for inputting voice data according to the present invention as a built-in or external device. A camera used for the purpose described later may also be built-in or connected as an external device.

情報処理サーバ100は、本願発明におけるアプリケーションを情報処理端末102に提供し、情報処理端末102から受け取った音声データは、認識サーバ101に送ることで音声認識処理を実行させ、その結果(テキストデータ)を受け取る。 The information processing server 100 provides the application according to the present invention to the information processing terminal 102, and the voice data received from the information processing terminal 102 is sent to the recognition server 101 to execute the voice recognition process, and the result (text data). To receive.

ただし、情報処理サーバ100と認識サーバ101は、同一の筐体であっても良い。また、本願発明のアプリケーションの機能の一部は、情報処理端末102に配置され、実行されても良い。以降で説明する機能の配置はあくまで例であって、その配置は特定の情報処理装置に限定されるものではない。以上が図1の説明である。 However, the information processing server 100 and the recognition server 101 may have the same housing. Further, a part of the functions of the application of the present invention may be arranged and executed in the information processing terminal 102. The arrangement of the functions described below is merely an example, and the arrangement is not limited to a specific information processing apparatus. The above is the description of FIG.

図2は、本発明の実施形態に係る情報処理サーバ100、認識サーバ101、情報処理端末102に適用可能なハードウェア構成の一例を示すブロック図である。 FIG. 2 is a block diagram showing an example of a hardware configuration applicable to the information processing server 100, the recognition server 101, and the information processing terminal 102 according to the embodiment of the present invention.

図2に示すように、情報処理サーバ100、認識サーバ101、情報処理端末102は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)203、ROM(Read Only Memory)202、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。 As shown in FIG. 2, the information processing server 100, the recognition server 101, and the information processing terminal 102 are the CPU (Central Processing Unit) 201, the RAM (Random Access Memory) 203, and the ROM (Read Only Memory) via the system bus 204. A configuration is adopted in which 202, an input controller 205, a video controller 206, a memory controller 207, a communication I / F controller 208, and the like are connected.

CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。 The CPU 201 comprehensively controls each device and controller connected to the system bus 204.

また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。 Further, the ROM 202 or the external memory 211 will be described later, which is necessary for realizing the functions executed by the BIOS (Basic Input / Output System) and the OS (Operating System), which are the control programs of the CPU 201, and the functions executed by each server or each PC. Various programs etc. are stored. In addition, information necessary for carrying out the present invention is stored. The external memory may be a database.

RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。 The RAM 203 functions as a main memory, a work area, and the like of the CPU 201. The CPU 201 realizes various operations by loading a program or the like necessary for executing the process from the ROM 202 or the external memory 211 into the RAM 203 and executing the loaded program.

また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。 Further, the input controller 205 controls input from a pointing device such as a keyboard (KB) 209 or a mouse (not shown).

ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。 The video controller 206 controls the display on a display such as the display 210. The display may be a display such as a liquid crystal display. These are used by the administrator as needed.

メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。 The memory controller 207 is an external storage device (hard disk (HD)) for storing boot programs, various applications, font data, user files, edit files, various data, etc., a flexible disk (FD), or a PCMCIA (Personal Computer). Controls access to external memory 211 such as CompactFlash® memory connected via an adapter to the Memory Card International Association card slot.

通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。 The communication I / F controller 208 connects and communicates with an external device via the network, and executes communication control processing on the network. For example, communication using TCP / IP (Transmission Control Protocol / Internet Protocol) is possible.

尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。 The CPU 201 can be displayed on the display 210, for example, by executing an outline font expansion (rasterization) process in the display information area in the RAM 203. Further, the CPU 201 enables a user instruction by a mouse cursor (not shown) or the like on the display 210.

本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。 Various programs described later for realizing the present invention are recorded in the external memory 211, and are executed by the CPU 201 by being loaded into the RAM 203 as needed.

図3は、本発明の実施形態に係る機能構成の一例を示す図である。データ入力部321は、本願発明のアプリケーションをユーザが操作することにより、音声などのデータを受け付ける。また項目(後述の例では“精算項目”)に関連したレシートなどを撮影した画像などを受け付けても良い。 FIG. 3 is a diagram showing an example of a functional configuration according to an embodiment of the present invention. The data input unit 321 receives data such as voice by operating the application of the present invention by the user. In addition, an image or the like of a receipt or the like related to the item (“payment item” in the example described later) may be accepted.

データ送信部322は、ユーザの操作により入力された音声データなどのデータを情報処理サーバ100に送信し、情報処理サーバ100のデータ受信部301が当該データを受信する。 The data transmission unit 322 transmits data such as voice data input by the user's operation to the information processing server 100, and the data reception unit 301 of the information processing server 100 receives the data.

認識パターン決定部302においては、前記データに“項目”(後述の例では“精算項目”)や既に決定している“詳細項目”(後述の例では“宿泊開始日”、“宿泊費”)などに基づき、その時点で未確定の項目を判断し、認識方法を決定する。認識方法とは、例えばいずれの単語を登録し、音声認識を実行するか、などを決定することである。これらの決定のために必要な情報はルール記憶部306に記憶されている。 In the recognition pattern determination unit 302, the data includes "items" ("payment items" in the example described later) and "detailed items" already determined ("accommodation start date" and "accommodation cost" in the example described later). Based on the above, the unconfirmed items are judged at that time, and the recognition method is decided. The recognition method is, for example, to register which word is to be registered and to determine which word to perform voice recognition. The information necessary for these decisions is stored in the rule storage unit 306.

認識実行部303においては、前記決定した認識方法に基づき、登録単語と音声データを認識サーバ101に送信し、音声認識部311に認識させその結果(認識文字列)を受け取る。また、後述するとおり、レシートなどの画像データを送り、文字認識部312に認識させその結果(認識文字列)を受け取るようにとしても良い。 The recognition execution unit 303 transmits the registered word and the voice data to the recognition server 101 based on the determined recognition method, causes the voice recognition unit 311 to recognize the registered word and the voice data, and receives the result (recognition character string). Further, as will be described later, image data such as a receipt may be sent so that the character recognition unit 312 recognizes the image data and receives the result (recognition character string).

情報処理サーバ100は、認識サーバ101で認識した文字列を、パターン処理部304において、“詳細項目”に対応する部分(“宿泊開始日”、“宿泊費”)などを特定する。その際、ルール記憶部306に格納されたパターン804に記載の情報をパターンマッチングルールとして用いる。 The information processing server 100 specifies a portion (“accommodation start date”, “accommodation fee”) corresponding to the “detailed item” in the pattern processing unit 304 of the character string recognized by the recognition server 101. At that time, the information described in the pattern 804 stored in the rule storage unit 306 is used as the pattern matching rule.

結果送信部305は、前述で特定した情報を情報処理端末102に送信し、情報処理端末102の結果受信部324が受信する。この情報を表示部323でユーザに提示し、次の操作(情報が不足する場合の“再認識”、十分である場合の“登録”など)をユーザに促す。以上で図3の説明を完了する。 The result transmission unit 305 transmits the information specified above to the information processing terminal 102, and the result reception unit 324 of the information processing terminal 102 receives the information. This information is presented to the user on the display unit 323, and the user is urged to perform the next operation (“re-recognition” when the information is insufficient, “registration” when the information is sufficient, etc.). This completes the description of FIG.

次に図4、図5を用いて経費精算する際の画面例を説明する。この画面は情報処理端末102におけるユーザインタフェースの例を示すものである。 Next, a screen example for reimbursement of expenses will be described with reference to FIGS. 4 and 5. This screen shows an example of a user interface in the information processing terminal 102.

まず、図4を説明する。情報処理端末102においてユーザが“経費精算アプリ”を起動すると、いかなる種類の経費を精算するかを選択する精算項目選択リスト401(リスト選択)がある。ユーザが精算したい詳細項目を分かっていてリストから選択すれば、後述のフローチャートで説明する処理の流れがシンプルになるが、分からなければ選択しなくともよい。 First, FIG. 4 will be described. When the user activates the "expense settlement application" on the information processing terminal 102, there is a settlement item selection list 401 (list selection) for selecting what kind of expense is to be settled. If the user knows the detailed item to be settled and selects it from the list, the flow of the process described in the flowchart described later becomes simple, but if he / she does not know, he / she does not have to select it.

また音声認識ボタン402を押下することで、例えば「7月10日から7月12日まで、横浜ホテルに宿泊し合計で19,800円」という音声を情報処理端末102が受け付け、情報処理サーバ100に送る。 Further, by pressing the voice recognition button 402, for example, the information processing terminal 102 receives the voice "staying at the Yokohama hotel from July 10 to July 12, totaling 19,800 yen", and the information processing server 100. Send to.

図5は、前記ユーザが入力した音声を認識し、精算項目が“宿泊費”であること、また詳細項目(”宿泊開始日“、”宿泊終了日“、”宿泊先“、”費用“)についての情報を抽出して表示したものである。欄501には、”◎“、”דが付与されているが、これらはアプリケーションが情報の取得が成功したか否かによってマークされている。例では宿泊先の名称が上手く認識されていない(”ד)としている。 In FIG. 5, the voice input by the user is recognized, the settlement item is “accommodation fee”, and the detailed item (“accommodation start date”, “accommodation end date”, “accommodation destination”, “cost”). Information about is extracted and displayed. Columns 501 are assigned "◎", "x", which are marked according to whether or not the application has successfully acquired the information. In the example, the name of the accommodation is not well recognized ("x").

情報の取得が成功したかどうかは、ユーザの判断により変更することができる。例えば、図5の例では“費用”には“◎”が付いているが、これはアプリケーションの判断であり、実際には誤っている可能性もある。 Whether or not the information acquisition is successful can be changed at the user's discretion. For example, in the example of FIG. 5, "cost" is marked with "◎", but this is an application judgment and may actually be incorrect.

ユーザはこれらの認識結果をテキスト入力で変更しても良いが、欄501の“◎”、“×”を正しく修正した後、再度音声認識ボタン402を押下しても良い。 The user may change these recognition results by text input, but may press the voice recognition button 402 again after correctly correcting "◎" and "x" in the column 501.

その時点では、“宿泊費”の経費精算であり、その中の“宿泊先”に関する情報のみが不正確であることを情報処理サーバ100に送る。後述する処理の流れにおいて、既に分かっている情報、不正確だと指定されている情報を用いて、アプリケーションはより適切な音声認識と情報の取得を処理して、再度、当該画面に表示する。 At that time, it is the expense settlement of the "accommodation fee", and it is sent to the information processing server 100 that only the information about the "accommodation" in it is inaccurate. In the process flow described later, the application processes more appropriate voice recognition and acquisition of information by using the information already known and the information designated as inaccurate, and displays it on the screen again.

最終的に全ての結果が正しく記載されていれば、登録ボタン502を押下して、ユーザは経費として申請する。 Finally, if all the results are described correctly, the registration button 502 is pressed and the user applies as an expense.

これらの処理が“経費精算”に限らず、各種帳票などでも利用可能であることはいうまでもない。以上で図4、図5を用いた画面例の説明を完了する。 Needless to say, these processes can be used not only for "expense settlement" but also for various forms. This completes the description of the screen example using FIGS. 4 and 5.

次に図6、図7のフローチャートを用いて、本願発明における処理の一例を説明する。フローチャートの各ステップは、情報処理サーバ100上のCPU201で実行される。また、各ステップを実行する際に参照されるルール記憶部306(図8)、ユーザが入力する音声データと音声認識結果の例(図9)も必要に応じて説明する。 Next, an example of the process in the present invention will be described with reference to the flowcharts of FIGS. 6 and 7. Each step of the flowchart is executed by the CPU 201 on the information processing server 100. Further, a rule storage unit 306 (FIG. 8) referred to when each step is executed, an example of voice data input by the user and a voice recognition result (FIG. 9) will be described as necessary.

ステップS601では、情報処理端末102から送信されたデータを受信する。データには、ユーザが発話した音声データの他、精算項目選択リスト401でいずれかの“項目”が選択されている場合には、それが何れの項目であるか(例えば“宿泊費”)もあわせて受信される。 In step S601, the data transmitted from the information processing terminal 102 is received. In addition to the voice data spoken by the user, if any "item" is selected in the settlement item selection list 401, which item it is (for example, "accommodation fee") is also included in the data. It will also be received.

例としてユーザの最初の音声入力は「7月10日から7月12日まで横浜ホテルに宿泊し合計で19,800円です。」であるとする(図9のユーザの最初の発話901)。 As an example, suppose that the user's first voice input is "staying at the Yokohama Hotel from July 10th to July 12th for a total of 19,800 yen" (user's first utterance 901 in FIG. 9).

ステップS602では、認識パターンを特定し、そのための音声認識精度を最適化するために認識サーバ101の音声認識部311に登録する単語群をリストアップする。この処理は、図7のフローチャートで説明する。 In step S602, a word group registered in the voice recognition unit 311 of the recognition server 101 is listed in order to specify the recognition pattern and optimize the voice recognition accuracy for that purpose. This process will be described with reference to the flowchart of FIG.

ステップS701では、詳細の情報を決定すべき“項目”(本例では“精算項目”)が決定しているかを判定する。例えば、情報処理端末102から情報処理サーバ100に音声データを初めて送ってきたときであって、精算項目選択リスト401でユーザが明示的な項目を選択していなければ、音声認識の結果として決める必要がある(すなわちこの時点では決まっていない)。この場合(NOの場合)は、ステップS702に進む。 In step S701, it is determined whether or not an "item" (in this example, a "settlement item") for which detailed information should be determined has been determined. For example, when voice data is first sent from the information processing terminal 102 to the information processing server 100, and the user has not selected an explicit item in the settlement item selection list 401, it is necessary to determine as a result of voice recognition. There is (ie, not decided at this point). In this case (NO), the process proceeds to step S702.

またユーザが精算項目選択リスト401で明示的に項目を決めているか、あるいは既に一度音声認識を行い、その結果から処理する精算項目が決まっている場合(YESの場合)は、ステップS703に進む。 If the user has explicitly determined an item in the settlement item selection list 401, or has already performed voice recognition once and the settlement item to be processed has been determined from the result (YES), the process proceeds to step S703.

ステップS702では、“精算項目”は未定であるため、まずは詳細項目(“宿泊先”など)を取得するためよりも、“精算項目”を決定するために音声認識の精度を向上させることが優先となる。そこで、図8の精算項目特徴語802に記載された単語を音声認識サービスに登録する単語(特徴語グループS1~SZに含まれる単語)をリストアップする。本処理は、音声認識で用いる音声データの種別にかかる単語を決定する処理の一例である。 In step S702, since the "payment item" is undecided, it is prioritized to improve the accuracy of voice recognition in order to determine the "payment item" rather than to acquire the detailed item (such as "accommodation"). Will be. Therefore, the words (words included in the feature word groups S1 to SZ) for registering the words described in the settlement item feature word 802 in FIG. 8 in the voice recognition service are listed. This process is an example of a process for determining a word related to the type of speech data used in speech recognition.

図8の精算項目特徴語802に記載されている単語について説明する。この時点では精算内容の詳細な情報よりも“精算項目”(例えば、“宿泊費”なのか“タクシー代”なのか)を決定することが必要であり、それらを区別するための単語(あるいは文字列)を音声データから正確に取得することを優先する。 The word described in the settlement item feature word 802 of FIG. 8 will be described. At this point, it is necessary to determine the "payment item" (for example, "accommodation fee" or "taxi fare") rather than the detailed information of the payment details, and the word (or character) to distinguish them. Priority is given to accurately acquiring the column) from the audio data.

そこで、精算項目特徴語802にて、例えば”宿泊費“であることを特徴付ける単語として特徴語グループS1にあるような単語(あるいは文字列)を定義する。音声データに含まれる情報が”宿泊費“であれば、例えば”宿泊“、”ホテル“などがユーザの音声に出現する確率が高いと考えられるので、これらの単語を登録し、音声認識の結果として確実に取得することが重要である。また”タクシー代“であれば、”タクシー“、”電車代“であれば、”都営“、”メトロ“、あるいはもっと具体的に”浅草線“などの路線名が音声に含まれる可能性が高い。これらの単語を後述の音声認識要求の前に、音声認識部311に登録するためにリストアップしておく。 Therefore, in the settlement item feature word 802, for example, a word (or a character string) as in the feature word group S1 is defined as a word that characterizes the fact that the item is “accommodation fee”. If the information contained in the voice data is "accommodation expenses", it is highly likely that "accommodation", "hotel", etc. will appear in the user's voice, so these words are registered and the result of voice recognition. It is important to get it reliably. Also, if it is "taxi fare", "taxi", if it is "train fare", "Toei", "metro", or more specifically, "Asakusa line" may be included in the voice. high. These words are listed for registration in the voice recognition unit 311 before the voice recognition request described later.

ここでフローチャートは一旦、図6のステップS603に戻る。ステップS603では、前述のS702で決定した特徴語グループS1~SZに含まれる単語を、音声認識精度向上のために認識サーバ101の音声認識部311に送信して登録させ、あわせて音声認識する音声データ(901)も送信する。 Here, the flowchart temporarily returns to step S603 of FIG. In step S603, the words included in the feature word groups S1 to SZ determined in S702 described above are transmitted to the voice recognition unit 311 of the recognition server 101 to be registered in order to improve the voice recognition accuracy, and the voice is recognized at the same time. Data (901) is also transmitted.

ステップS604では、音声認識部311が認識した結果(認識した結果の文字列)を受信する。例えば図9の“1回目の音声認識結果”(902)を受信する。 In step S604, the result recognized by the voice recognition unit 311 (character string of the recognized result) is received. For example, the "first voice recognition result" (902) of FIG. 9 is received.

ステップS605では、ステップS604で受信した認識結果の文字列の中に、“精算項目”および“詳細項目”に対応する情報が含まれているかどうかパターンに当てはめる。具体的には、902の中に“ホテル”、“宿泊”という文字が含まれているため、“精算項目”は“宿泊費”であることが決定できる。本処理は、決定された単語を用いて音声認識装置が音声認識した結果に基づいて、音声データの種別を特定する処理の一例である。なお、”精算項目”の決定の際には、上記のように音声認識結果902に806の特徴語と一致する語句が含まれる場合に決定するだけでなく、特徴語と類似する語句や関連する語句が含まれる場合に決定してもよく、また、過去に”精査項目”が決定された認識結果とのパターンマッチングや機械学習による推論等により決定してもよい。さらに精算項目“宿泊費”に関連する詳細項目の中から“宿泊終了日”、“費用”に関する情報は取得できる。具体的には図9の922、925の文字列が、図8のパターン804に記載されたパターンに一致していることによる。本処理は、音声認識装置が音声認識した結果から、所定の条件によりデータ項目にかかる箇所を抽出する処理の一例である。 In step S605, it is applied to the pattern whether or not the information corresponding to the "payment item" and the "detailed item" is included in the character string of the recognition result received in step S604. Specifically, since the characters "hotel" and "accommodation" are included in 902, it can be determined that the "payment item" is "accommodation expense". This process is an example of a process of specifying the type of voice data based on the result of voice recognition by the voice recognition device using the determined word. When determining the "payment item", not only when the speech recognition result 902 contains a phrase that matches the feature word of 806 as described above, but also a phrase similar to the feature word and related words and phrases are determined. It may be determined when a word or phrase is included, or it may be determined by pattern matching with a recognition result for which a "scrutiny item" has been determined in the past, inference by machine learning, or the like. Furthermore, information on "accommodation end date" and "expense" can be obtained from the detailed items related to the settlement item "accommodation expense". Specifically, it is because the character strings of 922 and 925 in FIG. 9 match the pattern described in the pattern 804 of FIG. This process is an example of a process of extracting a part related to a data item from a result of voice recognition by a voice recognition device under a predetermined condition.

ステップS606では、着目している精算項目について、全ての詳細項目が取得できたか否かを確認する。前記例では“宿泊費”のうち、“宿泊開始日”と“宿泊先”が取得できていないため、NOとなりステップS607に進む。本処理は、取得手段によりデータ項目の値を取得できたかを判定する処理の一例である。 In step S606, it is confirmed whether or not all the detailed items have been acquired for the settlement item of interest. In the above example, since the “accommodation start date” and the “accommodation destination” have not been acquired among the “accommodation expenses”, the result is NO and the process proceeds to step S607. This process is an example of the process of determining whether the value of the data item can be acquired by the acquisition means.

また全ての詳細項目が取得できた場合(“YES”の場合)には、認識結果を情報処理端末102に返し、本願発明の処理を完了する。 If all the detailed items can be acquired (in the case of "YES"), the recognition result is returned to the information processing terminal 102, and the process of the present invention is completed.

次にステップS607とステップS608を説明するが、この判断はあくまで例である。すなわち、本願発明の本質は、同一の音声データであっても音声認識部311に登録する辞書を動的に切り替えることで、必要な情報を取得することであるが、最初の音声データの品質が悪ければ何度繰り返しても取得することはできない。そこで音声データの再利用に一定の制限を加えたものである。あくまで例であるため、ユーザの待ち時間や繰り返して認識できなかった詳細項目の数など、他のいかなる判断基準も本発明を構成できるものであることはいうまでもない。それでは例としてステップS607、ステップS608を説明する。 Next, steps S607 and S608 will be described, but this determination is merely an example. That is, the essence of the present invention is to acquire necessary information by dynamically switching the dictionary registered in the voice recognition unit 311 even if the voice data is the same, but the quality of the first voice data is high. If it is bad, it cannot be obtained no matter how many times it is repeated. Therefore, certain restrictions are applied to the reuse of voice data. Since this is just an example, it goes without saying that any other criterion such as the waiting time of the user and the number of detailed items that could not be recognized repeatedly can constitute the present invention. Then, step S607 and step S608 will be described as an example.

ステップS607においては、音声認識の確信度を判断基準とする。一般的な技術として音声認識の出力には、認識結果の文字列だけではなく“確信度”が含まれる。例えば0~1までの数値で1に近いほど、高い確率で正解である(ユーザの発話と一致している)というものである。 In step S607, the conviction of voice recognition is used as a determination criterion. As a general technique, the output of speech recognition includes not only the character string of the recognition result but also "confidence". For example, the closer the numerical value is from 0 to 1, the higher the probability that the answer is correct (matches the user's utterance).

確信度が高い場合(YESの場合)には、そもそもユーザが入力した音声データの品質が高い、例えば録音環境の騒音が少ない、マイクなど入力機器の性能が良い、発話者の滑舌が良い場合が多く、最初の音声認識で失敗しても、単語の登録などで正解を出力する可能性が高くなる。そこで、ステップS608を経由してステップS602に戻り、改めて処理を繰り返す。 If the certainty is high (YES), the quality of the voice data input by the user is high, for example, there is little noise in the recording environment, the performance of the input device such as a microphone is good, and the speaker's tongue is good. Even if the first voice recognition fails, there is a high possibility that the correct answer will be output by registering a word. Therefore, the process returns to step S602 via step S608, and the process is repeated again.

確信度が低い場合には、単語を登録して再度認識しても正解は得られないため(NOの場合)、ステップS609に進む。確信度がどの程度であれば、正解が得られる/得られないという閾値は、予めファイル等の記憶部に手動で設定しておく。 If the degree of certainty is low, the correct answer cannot be obtained even if the word is registered and recognized again (in the case of NO), so the process proceeds to step S609. The threshold value for obtaining / not obtaining the correct answer as long as the degree of certainty is manually set in a storage unit such as a file in advance.

ステップS608においては、音声データを認識する回数に制限を設けておく。これにより、例えば特徴語となる単語を音声認識部311に登録して確信度が向上しても、実際には必要な情報が得られない、という状況を何度も繰り返すことを避けることができる。この回数も予め前記ファイル等の記憶部に手動で設定しておく。また、回数ではなく、図8の特徴語グループを最大に拡大しても認識できない、という場合に“YES”と判断し、ステップS609に進んでも良い。 In step S608, a limit is set on the number of times the voice data is recognized. As a result, for example, even if a word that is a characteristic word is registered in the voice recognition unit 311 to improve the certainty, it is possible to avoid repeating the situation that the necessary information is not actually obtained. .. This number of times is also manually set in the storage unit of the file or the like in advance. Further, if it is not the number of times and the feature word group of FIG. 8 cannot be recognized even if it is expanded to the maximum, it may be determined as "YES" and the process may proceed to step S609.

ステップS608でNOとなった場合には、ステップS602(即ち図7のフローチャート)に再び戻り、最初の音声データを再度音声認識するための準備をする。 If NO is obtained in step S608, the process returns to step S602 (that is, the flowchart of FIG. 7) to prepare for voice recognition of the first voice data again.

図7のフローチャートを2回目以降に実行する場合には、“精算項目”は既に決まっている(例では“宿泊費”)。この場合ステップS701で“YES”となりステップS703に進む。 When the flowchart of FIG. 7 is executed from the second time onward, the "payment item" has already been determined (in the example, "accommodation fee"). In this case, "YES" is set in step S701, and the process proceeds to step S703.

ステップS703にでは、まだ決定していない“詳細項目”の特徴語グループに属する単語を音声認識部311に渡すための準備をする。本例では、具体的には“宿泊開始日”、“宿泊先”がまだ取得できていないため、関連する特徴語グループD1、D2の単語をリストアップし、再び図6のフローチャートに戻る。本処理は、音声データから認識されるデータ項目に応じて、音声認識で用いる前記データ項目にかかる単語を決定する処理の一例である。 In step S703, preparations are made for passing a word belonging to the feature word group of the “detailed item” that has not been determined yet to the speech recognition unit 311. In this example, since the "accommodation start date" and "accommodation destination" have not been acquired yet, the words of the related feature word groups D1 and D2 are listed, and the process returns to the flowchart of FIG. 6 again. This process is an example of a process of determining a word related to the data item used in the voice recognition according to the data item recognized from the voice data.

図6のステップS603で音声認識部311に特徴語グループD1、D2の単語を登録するよう指示し、また最初にユーザが入力した音声データを渡す。本処理は、判定した結果に従って、データ項目にかかる単語を音声認識で用いる単語として決定する処理の一例である。 In step S603 of FIG. 6, the voice recognition unit 311 is instructed to register the words of the feature word groups D1 and D2, and the voice data first input by the user is passed. This process is an example of a process of determining a word related to a data item as a word used in speech recognition according to the determination result.

ステップS604で結果を受け取り、ステップS605でこの2つの詳細項目が取得できるか確認する。図9の902では失敗した宿泊開始日(“7月当課”(921))が、2回目では正確に認識でき、”7月10日“が得られた(903)。しかしながら、”宿泊先“は”??ホテル“(931)となり再度失敗したとする。本処理は、決定された単語を用いて音声認識装置が音声認識した結果に基づいて、データ項目の値を取得する処理の一例である。 The result is received in step S604, and it is confirmed whether these two detailed items can be acquired in step S605. In 902 of FIG. 9, the failed accommodation start date (“July section” (921)) was accurately recognized in the second time, and “July 10” was obtained (903). However, it is assumed that "accommodation" is "?? Hotel" (931) and fails again. This process is an example of a process of acquiring the value of a data item based on the result of voice recognition by the voice recognition device using the determined word.

そこで、ステップS607、S608の判断で最初の音声データを用い、3回目の音声認識を実行するよう判断する。 Therefore, it is determined in the determination of steps S607 and S608 that the first voice data is used and the third voice recognition is executed.

再びステップS703では、認識すべき詳細項目が“宿泊先”の1つだけであるため、2回目よりも多くの単語を登録できると判断し、図8の拡大特徴語テーブル810の拡大特徴語グループD2の単語を登録する。特徴語グループD2よりも多くのホテルの名称を登録することで、認識が成功する確率を上げようとする。しかし、結局941の通り失敗したとする。 Again, in step S703, it is determined that more words can be registered than the second time because there is only one detailed item to be recognized, "accommodation", and the expanded feature word group in the expanded feature word table 810 of FIG. 8 is determined. Register the word of D2. By registering more hotel names than the feature word group D2, we try to increase the probability of successful recognition. However, it is assumed that it fails according to 941 after all.

その結果、同じ音声データを再認識させないと判断し(ステップS608の“YES”の場合)、ステップS609で、情報処理端末102に“宿泊先”のみ改めて音声入力するよう指示を出す。本処理は、取得手段により取得できなかったデータ項目にかかる音声データの入力を受け付ける処理の一例である。 As a result, it is determined that the same voice data will not be recognized again (in the case of "YES" in step S608), and in step S609, an instruction is given to the information processing terminal 102 to input voice again only for the "accommodation". This process is an example of a process of accepting input of voice data related to a data item that could not be acquired by the acquisition means.

ユーザは、情報処理端末102(図5の501)で“宿泊費”の“宿泊先”だけが正しく取得できていないことを認識すると、その情報だけを音声で入力し、再度情報処理サーバ100に送信する。 When the user recognizes that only the "accommodation destination" of the "accommodation fee" has not been correctly acquired by the information processing terminal 102 (501 in FIG. 5), only that information is input by voice and is again input to the information processing server 100. Send.

情報処理サーバ100のステップS601では、前記情報を受け取り、前述した2回目以降の音声認識の際と同じ手順で“宿泊先”のみを認識し、情報を取得する。情報取得が成功すれば、最終結果として情報処理端末102に結果を返す(ステップS610)。再度取得できなかった場合は、前期同様ステップS609で失敗した旨を返す。 In step S601 of the information processing server 100, the information is received, and only the "accommodation" is recognized and the information is acquired by the same procedure as in the second and subsequent voice recognition described above. If the information acquisition is successful, the result is returned to the information processing terminal 102 as the final result (step S610). If it cannot be acquired again, it returns that it failed in step S609 as in the previous period.

以上で、“宿泊費”の詳細項目は全て入力が完了したものとして、図6、図7のフローチャート、図8の記憶部、図9の実行例を用いた説明を完了する。なお、システム側が成功したと見なしても、単にパターンが一致しただけであり、ユーザにとっては正確なデータが得られていない場合もある。その場合は、ユーザは情報処理端末102のインタフェースから、改めてその項目だけを選択して音声データを入力する、あるいは音声データでの情報入力をあきらめ、直接文字を入力するなどの操作ができることはいうまでもない。 As described above, assuming that all the detailed items of "accommodation fee" have been input, the explanation using the flowchart of FIGS. 6 and 7, the storage unit of FIG. 8, and the execution example of FIG. 9 is completed. Even if the system considers it successful, the patterns simply match, and the user may not be able to obtain accurate data. In that case, the user can perform operations such as selecting only the item again from the interface of the information processing terminal 102 and inputting voice data, or giving up information input by voice data and directly inputting characters. Not to mention.

なお、図6~図9を用いて行った説明はあくまで例であり、音声認識を連続して行っていく過程で、たとえ同じ音声データを繰り返し行うものであっても、その時点でどのような情報(単語群)を重点的に取得していくか、変更していくことが本願発明の中心であるため、その各段階で、取得すべき重点情報や登録する単語群の決め方は任意であり、全て本発明の範囲に含まれることはいうまでもない。さらに、同じ音声データではなく異なる音声データを再要求するタイミングも同様であり、その流れの制御はどのような方法であっても本願発明に含まれるものである。 It should be noted that the explanation given using FIGS. 6 to 9 is just an example, and what kind of voice data is used at that time even if the same voice data is repeatedly performed in the process of continuously performing voice recognition. Since the focus of the present invention is to focus on acquiring or changing information (word group), the method of determining the priority information to be acquired and the word group to be registered is arbitrary at each stage. Needless to say, all of them are included in the scope of the present invention. Further, the timing of re-requesting different voice data instead of the same voice data is also the same, and the control of the flow is included in the present invention by any method.

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 Although some embodiments have been described above, the present invention can be, for example, an embodiment as a system, an apparatus, a method, a computer program, a recording medium, or the like, and specifically, a plurality of devices. It may be applied to a system composed of, or may be applied to a device consisting of one device.

また、本発明におけるコンピュータプログラムは、図6、図7に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図6、図7の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図6、図7の各装置の処理方法ごとのコンピュータプログラムであってもよい。 Further, the computer program in the present invention is a computer program in which a computer can execute the processing methods shown in FIGS. 6 and 7, and the storage medium of the present invention can execute the processing methods in FIGS. 6 and 7. Computer programs are stored. The computer program in the present invention may be a computer program for each processing method of the devices of FIGS. 6 and 7.

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。 As described above, a computer in which a recording medium on which a computer program that realizes the functions of the above-described embodiment is recorded is supplied to the system or device, and the computer (or CPU or MPU) of the system or device is stored in the recording medium. Needless to say, the object of the present invention is achieved by reading and executing the program.

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。 In this case, the computer program itself read from the recording medium realizes the novel function of the present invention, and the recording medium storing the computer program constitutes the present invention.

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。 Recording media for supplying computer programs include, for example, flexible disks, hard disks, optical disks, magneto-optical disks, CD-ROMs, CD-Rs, DVD-ROMs, magnetic tapes, non-volatile memory cards, ROMs, and silicon disks. , Solid state drive and the like can be used.

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the computer program read by the computer, not only the function of the above-described embodiment is realized, but also the OS (operating system) or the like running on the computer is realized based on the instruction of the computer program. Needless to say, there are cases where a part or all of the actual processing is performed and the processing realizes the functions of the above-described embodiment.

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, the computer program read from the recording medium is written to the memory provided in the function expansion board inserted in the computer or the function expansion unit connected to the computer, and then its function is based on the instruction of the computer program code. Needless to say, there are cases where the CPU provided in the expansion board or the function expansion unit performs a part or all of the actual processing, and the processing realizes the functions of the above-described embodiment.

また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Further, the present invention may be applied to a system composed of a plurality of devices or a device composed of one device. It goes without saying that the present invention can also be applied when it is achieved by supplying a computer program to a system or an apparatus. In this case, by reading the recording medium containing the computer program for achieving the present invention into the system or device, the system or device can enjoy the effect of the present invention.

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Further, by downloading and reading a computer program for achieving the present invention from a server, database, or the like on a network by a communication program, the system or device can enjoy the effect of the present invention.

なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。 It should be noted that the present invention also includes all the configurations in which each of the above-described embodiments and modifications thereof are combined.

100 情報処理サーバ
101 認識サーバ
102 情報処理端末
103 ネットワーク
301 データ受信部
302 認識パターン決定部
303 認識実行部
304 パターン処理部
305 結果送信部
306 ルール記憶部
311 音声認識部
312 文字認識部
321 データ入力部
322 データ送信部
323 表示部
324 結果受信部
100 Information processing server 101 Recognition server 102 Information processing terminal 103 Network 301 Data reception unit 302 Recognition pattern determination unit 303 Recognition execution unit 304 Pattern processing unit 305 Result transmission unit 306 Rule storage unit 311 Voice recognition unit 312 Character recognition unit 321 Data input unit 322 Data transmission unit 323 Display unit 324 Result reception unit

Claims (10)

音声データから音声認識する音声認識装置と通信可能に接続された情報処理装置であって、
音声データから認識されるデータ項目に応じて、音声認識で用いる前記データ項目にかかる単語を決定する決定手段と、
前記決定された単語を用いて前記音声認識装置が音声認識した結果に基づいて、データ項目の値を取得する取得手段と
を備えることを特徴とする情報処理装置。
An information processing device that is communicably connected to a voice recognition device that recognizes voice from voice data.
A determination means for determining a word related to the data item used in voice recognition according to a data item recognized from the voice data, and a determination means.
An information processing device including an acquisition means for acquiring a value of a data item based on a result of voice recognition by the voice recognition device using the determined word.
前記取得手段によりデータ項目の値を取得できたかを判定する判定手段を備え、
前記決定手段は、前記判定した結果に従って、前記データ項目にかかる単語を音声認識で用いる単語として決定することを特徴とする請求項1に記載の情報処理装置。
A determination means for determining whether or not the value of the data item could be acquired by the acquisition means is provided.
The information processing apparatus according to claim 1, wherein the determination means determines a word related to the data item as a word used in voice recognition according to the determination result.
前記データ項目にかかる単語を記憶する第1記憶手段を備えることを特徴とする請求項1または2に記載の情報処理装置。 The information processing apparatus according to claim 1 or 2, further comprising a first storage means for storing a word related to the data item. 前記音声データの種別とデータ項目とを管理する管理手段と、
前記音声データの種別を特定する特定手段と
を備え、
前記音声データから認識されるデータ項目は、前記特定された音声データの種別に対して管理されるデータ項目であることを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
A management means for managing the type of voice data and data items, and
Provided with a specific means for specifying the type of the voice data,
The information processing apparatus according to any one of claims 1 to 3, wherein the data item recognized from the voice data is a data item managed for the specified voice data type. ..
音声認識で用いる前記音声データの種別にかかる単語を決定する第2決定手段を備え、
前記特定手段は、前記決定された単語を用いて前記音声認識装置が音声認識した結果に基づいて、前記音声データの種別を特定することを特徴とする請求項4に記載の情報処理装置。
A second determination means for determining a word related to the type of speech data used in speech recognition is provided.
The information processing device according to claim 4, wherein the specifying means specifies the type of the voice data based on the result of voice recognition by the voice recognition device using the determined word.
前記音声データの種別にかかる単語を記憶する第2記憶手段を備えることを特徴とする請求項5に記載の情報処理装置。 The information processing apparatus according to claim 5, further comprising a second storage means for storing a word according to the type of voice data. 前記音声認識装置が音声認識した結果から、所定の条件により前記データ項目にかかる箇所を抽出する抽出手段を備えることを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 6, further comprising an extraction means for extracting a portion related to the data item from the result of voice recognition by the voice recognition device. 前記取得手段により取得できなかったデータ項目にかかる音声データの入力を受け付ける受付手段を備えることを特徴とする請求項1~7のいずれか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 7, further comprising a receiving means for receiving input of voice data related to a data item that could not be acquired by the acquisition means. 音声データから音声認識する音声認識装置と通信可能に接続された情報処理装置の制御方法であって、
決定手段が、音声データから認識されるデータ項目に応じて、音声認識で用いる前記データ項目にかかる単語を決定する決定ステップと、
取得手段が、前記決定された単語を用いて前記音声認識装置が音声認識した結果に基づいて、データ項目の値を取得する取得ステップと
を備えることを特徴とする情報処理装置の制御方法。
It is a control method of an information processing device that is communicably connected to a voice recognition device that recognizes voice from voice data.
A determination step in which the determination means determines a word related to the data item used in speech recognition according to the data item recognized from the speech data.
A control method for an information processing apparatus, wherein the acquisition means includes an acquisition step of acquiring a value of a data item based on a result of voice recognition by the voice recognition device using the determined word.
音声データから音声認識する音声認識装置と通信可能に接続された情報処理装置で実行可能なプログラムであって、
前記情報処理装置を、
音声データから認識されるデータ項目に応じて、音声認識で用いる前記データ項目にかかる単語を決定する決定手段と、
前記決定された単語を用いて前記音声認識装置が音声認識した結果に基づいて、データ項目の値を取得する取得手段
として機能させるためのプログラム。
A program that can be executed by an information processing device that is communicably connected to a voice recognition device that recognizes voice from voice data.
The information processing device
A determination means for determining a word related to the data item used in voice recognition according to a data item recognized from the voice data, and a determination means.
A program for functioning as an acquisition means for acquiring a value of a data item based on the result of voice recognition by the voice recognition device using the determined word.
JP2020115311A 2020-07-03 2020-07-03 Information processing device, control method, and program Pending JP2022013032A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020115311A JP2022013032A (en) 2020-07-03 2020-07-03 Information processing device, control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020115311A JP2022013032A (en) 2020-07-03 2020-07-03 Information processing device, control method, and program

Publications (2)

Publication Number Publication Date
JP2022013032A true JP2022013032A (en) 2022-01-18
JP2022013032A5 JP2022013032A5 (en) 2023-07-03

Family

ID=80169581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020115311A Pending JP2022013032A (en) 2020-07-03 2020-07-03 Information processing device, control method, and program

Country Status (1)

Country Link
JP (1) JP2022013032A (en)

Similar Documents

Publication Publication Date Title
US11055527B2 (en) System and method for information extraction with character level features
US7660466B2 (en) Natural language recognition using distributed processing
CN103095910B (en) The cable voice port of NFC applications
JP5796496B2 (en) Input support system, method, and program
US11423314B2 (en) Method and system for facilitating user support using multimodal information
WO2019024692A1 (en) Speech input method and device, computer equipment and storage medium
US11610582B2 (en) Systems and methods for formatting informal utterances
US7536649B2 (en) Apparatus, system, and server capable of effectively specifying information in document
US20100070360A1 (en) System and method for creating a speech search platform for coupons
CN112925898B (en) Question-answering method and device based on artificial intelligence, server and storage medium
US20050010422A1 (en) Speech processing apparatus and method
EP1634151A1 (en) Information processing method and apparatus
CN113656547A (en) Text matching method, device, equipment and storage medium
JP2022013032A (en) Information processing device, control method, and program
CN114528851B (en) Reply sentence determination method, reply sentence determination device, electronic equipment and storage medium
JP5901694B2 (en) Dictionary database management device, API server, dictionary database management method, and dictionary database management program
CN113360127B (en) Audio playing method and electronic equipment
JP4749437B2 (en) Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program
CN114511393A (en) Financial data processing method and system
CN117574906B (en) Named entity identification method, device and equipment
JP4749438B2 (en) Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program
CN116822465A (en) Completion method and device for dialogue text, storage medium and computer equipment
CN116346987A (en) Audio real-time quality inspection method and device, storage medium and computer equipment
AU2004265700B2 (en) Natural language recognition using distributed processing
JP2022533948A (en) Communication server device, communication device, and method of operation thereof

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326