JP4749437B2 - Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program - Google Patents
Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program Download PDFInfo
- Publication number
- JP4749437B2 JP4749437B2 JP2008085111A JP2008085111A JP4749437B2 JP 4749437 B2 JP4749437 B2 JP 4749437B2 JP 2008085111 A JP2008085111 A JP 2008085111A JP 2008085111 A JP2008085111 A JP 2008085111A JP 4749437 B2 JP4749437 B2 JP 4749437B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- character
- item
- character information
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
本発明は、例えば、音声情報を文字情報に変換する技術に関する。 The present invention relates to a technique for converting voice information into character information, for example.
従来、音声情報が入力されると、入力された音声情報を文字情報へ変換して出力する音声文字変換装置(音声認識装置)がある。また、入力された音声情報のパターンと、ユーザの音声の特徴パターンとを比較して、ユーザを特定する装置がある(特許文献1参照)。
また、上記音声文字変換装置や、ユーザを特定する装置をコールセンターシステムへ応用した例がある(特許文献2,3参照)。
Moreover, there is an example in which the above-mentioned phonetic character conversion device or a device for specifying a user is applied to a call center system (see Patent Documents 2 and 3).
従来の音声認識技術では、音声の認識精度が低い。そのため、例えば契約書等の電子書類を作成する場合に、音声情報により各情報(個人情報等)を入力し、入力された音声情報を文字情報へ変換して書類を作成することは難しい。
この発明は、例えば、音声認識の精度を高くすることを目的とする。また、例えばコールセンター等で、オペレータとユーザとが音声情報を入力することにより、契約書等の電子書類を作成することを目的とする。
Conventional speech recognition technology has low speech recognition accuracy. Therefore, for example, when creating an electronic document such as a contract, it is difficult to input each information (personal information, etc.) using voice information and convert the input voice information into character information to create a document.
An object of the present invention is to increase the accuracy of voice recognition, for example. Another object is to create an electronic document such as a contract by inputting voice information between an operator and a user, for example, at a call center.
本発明に係る音声文字変換装置は、
例えば、複数の入力項目の入力項目毎に、その入力項目を示す項目識別情報と所定の文字情報である項目文字情報とを対応付けした項目識別辞書情報を記憶装置に記憶する項目識別辞書情報記憶部と、
第1の音声情報を変換して生成した文字情報を入力して記憶装置に記憶する第1の情報入力部と、
上記項目識別辞書情報記憶部が記憶した項目識別辞書情報に基づき、上記第1の情報入力部が入力した文字情報と一致する項目文字情報に対応する項目識別情報を処理装置により取得する項目情報取得部と、
入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報を記憶装置に記憶する属性毎辞書情報記憶部と、
第2の音声情報を変換して生成した文字情報を入力して記憶装置に記憶する第2の情報入力部と、
上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記項目情報取得部が取得した項目識別情報が示す入力項目の属性に対応する辞書情報を検索して、上記第2の情報入力部が入力した文字情報に一致する第2の文字情報に対応する第1の文字情報を処理装置により取得する文字情報取得部と
を備えることを特徴とする。
The phonetic character conversion device according to the present invention is:
For example, for each input item of a plurality of input items, item identification dictionary information storage that stores, in a storage device, item identification dictionary information in which item identification information indicating the input item is associated with item character information that is predetermined character information And
A first information input unit for inputting character information generated by converting the first voice information and storing the character information in a storage device;
Item information acquisition for acquiring, by a processing device, item identification information corresponding to item character information that matches the character information input by the first information input unit based on the item identification dictionary information stored in the item identification dictionary information storage unit And
A dictionary information storage unit for each attribute for storing dictionary information in which the first character information and the second character information are associated with each other for each attribute of the input item;
A second information input unit for inputting character information generated by converting the second voice information and storing the character information in a storage device;
Among the dictionary information stored in the dictionary information storage unit for each attribute, the dictionary information corresponding to the attribute of the input item indicated by the item identification information acquired by the item information acquisition unit is searched, and the second information input unit And a character information acquisition unit that acquires first character information corresponding to the second character information that matches the input character information by the processing device.
上記第1の情報入力部は、第1の端末が入力した第1の音声情報を変換して生成した文字情報を入力し、
上記第2の情報入力部は、上記第1の端末とは異なる第2の端末が入力した第2の音声情報を変換して生成した文字情報を入力する
ことを特徴とする。
The first information input unit inputs character information generated by converting the first voice information input by the first terminal,
The second information input unit inputs character information generated by converting second audio information input by a second terminal different from the first terminal.
本発明に係る音声文字変換方法は、例えば、
処理装置が、第1の音声情報を変換して生成した文字情報を入力する第1の情報入力ステップと、
処理装置が、複数の入力項目の入力項目毎に、予め記憶装置に記憶した入力項目を示す項目識別情報と所定の文字情報である項目文字情報とを対応付けした項目識別辞書情報に基づき、上記第1の情報入力ステップで入力した文字情報と一致する項目文字情報に対応する項目識別情報を取得する項目情報取得ステップと、
処理装置が、第2の音声情報を変換して生成した文字情報を入力する第2の情報入力ステップと、
処理装置が、入力項目の属性毎に、予め記憶装置に記憶した第1の文字情報と第2の文字情報とを対応付けした辞書情報のうち、上記項目情報取得ステップで取得した項目識別情報が示す入力項目の属性に対応する辞書情報を検索して、上記第2の情報入力ステップで入力した文字情報に一致する第2の文字情報に対応する第1の文字情報を取得文字情報取得ステップと
を備えることを特徴とする。
The phonetic character conversion method according to the present invention is, for example,
A first information input step in which the processing device inputs character information generated by converting the first voice information;
For each input item of a plurality of input items, the processing device is based on item identification dictionary information in which item identification information indicating an input item stored in advance in a storage device and item character information that is predetermined character information are associated with each other. An item information acquisition step for acquiring item identification information corresponding to item character information that matches the character information input in the first information input step;
A second information input step in which the processing device inputs character information generated by converting the second voice information;
Among the dictionary information in which the processing device associates the first character information and the second character information stored in the storage device in advance for each attribute of the input item, the item identification information acquired in the item information acquisition step is Search for dictionary information corresponding to the attribute of the input item shown, and obtain first character information corresponding to the second character information that matches the character information input in the second information input step; It is characterized by providing.
本発明に係る音声文字変換プログラムは、例えば、
第1の音声情報を変換して生成した文字情報を入力する第1の情報入力処理と、
複数の入力項目の入力項目毎に、その入力項目を示す項目識別情報と所定の文字情報である項目文字情報とを対応付けした項目識別辞書情報に基づき、上記第1の情報入力処理で入力した文字情報と一致する項目文字情報に対応する項目識別情報を取得する項目情報取得処理と、
第2の音声情報を変換して生成した文字情報を入力する第2の情報入力処理と、
入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報のうち、上記項目情報取得処理で取得した項目識別情報が示す入力項目の属性に対応する辞書情報を検索して、上記第2の情報入力処理で入力した文字情報に一致する第2の文字情報に対応する第1の文字情報を取得文字情報取得処理と
をコンピュータに実行させることを特徴とする。
The phonetic character conversion program according to the present invention is, for example,
A first information input process for inputting character information generated by converting the first voice information;
For each input item of a plurality of input items, input is performed in the first information input process based on item identification dictionary information in which item identification information indicating the input item is associated with item character information that is predetermined character information Item information acquisition processing for acquiring item identification information corresponding to item character information that matches the character information;
A second information input process for inputting character information generated by converting the second voice information;
Of the dictionary information in which the first character information and the second character information are associated with each other for each input item attribute, the dictionary information corresponding to the input item attribute indicated by the item identification information acquired in the item information acquisition process. And obtaining a first character information corresponding to the second character information that matches the character information input in the second information input process, and causing the computer to execute a character information acquisition process. .
本発明に係る音声文字変換装置によれば、第1の情報入力部が入力した文字情報に基づき項目情報取得部が入力項目を特定して、文字情報取得部が特定した入力項目の属性用の辞書情報に基づき、音声情報に対応した文字情報へ変換する。そのため、音声情報の認識精度が高い。 According to the phonetic character conversion device according to the present invention, the item information acquisition unit specifies the input item based on the character information input by the first information input unit, and the input item attribute specified by the character information acquisition unit is used. Based on the dictionary information, it is converted into character information corresponding to voice information. Therefore, the recognition accuracy of voice information is high.
実施の形態1.
この実施の形態では、入力項目毎に辞書情報を持つ音声文字変換装置100について説明する。
In this embodiment, a phonetic
図1は、この実施の形態に係る音声文字変換装置100の機能の概要を示す概念図である。
ユーザは、アプリケーション10の所定の入力項目(入力欄)にカーソルを合わせて、マイク等の入力装置から音声により情報を入力する。例えば、金額入力欄にカーソルを合わせて、「10万」と入力する。この場合、音声文字変換装置100は、アプリケーション10からカーソルがある入力項目の属性情報を取得する。ここでは、金額入力欄の属性情報として、「数値属性」を取得する。また、音声文字変換装置100は、ユーザがマイク等の入力装置から入力した音声情報を取得する。ここでは、「10万」を示す音声情報「ジュウマン」を取得する。そして、音声文字変換装置100は、アプリケーション10から取得した属性情報により使用する辞書を決定して、決定した辞書により取得した音声情報を文字情報へ変換して、認識結果としてアプリケーション10へ返す。ここでは、「数値属性」に対応する数値認識辞書を使用して、「ジュウマン」という音声情報を「10万」という文字情報へ変換してアプリケーション10へ返す。すると、アプリケーション10は、音声文字変換装置100から返された「10万」という文字情報を金額入力欄に設定する。
このように、音声文字変換装置100は、入力項目毎に辞書情報を持ち、入力しようとしている項目に合わせた辞書情報を使用して音声情報を文字情報へ変換する。一般に、辞書情報に登録されている語数が少ないほどヒット率(意図した文字情報へ音声情報が変換される確率)は高くなる。入力項目毎に辞書情報を持つことで、使用する辞書情報に登録された語数を減らすことができるとともに、的確な単語だけを登録しておくことができる。そのため、音声文字変換装置100によればヒット率を高くすることができる。つまり、音声認識精度を高くすることができる。
FIG. 1 is a conceptual diagram showing an outline of functions of the phonetic
The user moves the cursor to a predetermined input item (input field) of the
Thus, the phonetic
図2は、この実施の形態に係る音声文字変換装置100の機能を示す機能ブロック図である。
音声文字変換装置100は、音声情報入力部110、音声認識部120、属性情報取得部130、文字情報取得部140、属性毎辞書情報記憶部150を備える。
音声情報入力部110は、アプリケーション10を使用するユーザが出力した所定の音声情報を処理装置により入力して記憶装置に記憶する。
音声認識部120は、音声情報入力部110が取得した音声情報を変換して文字情報を処理装置により生成する。音声認識部120は、言語モデルに従い、音声情報をその音を示す文字情報へ変換する。例えば、「10」という数値の読み方として、「ジュウ」や「イチゼロ」等がある。この場合、音声認識部120は、ユーザが「10」という数値を「ジュウ」という読みで発音して入力した音声情報を「ジュウ」という文字情報に変換する。一方、ユーザが「10」という数値を「イチゼロ」という読みで発音して入力した音声情報を「イチゼロ」という文字情報に変換する。
属性情報取得部130は、アプリケーション10により所定の端末に表示された複数の入力項目のうち、現在カーソルがある入力項目の属性を示す属性情報をアプリケーション10から処理装置により取得して記憶装置に記憶する。つまり、属性情報取得部130は、現在入力しようとしている入力項目の属性情報を取得する。属性とは、例えば、数値、住所、人名等のその入力項目に入力される情報の性質を示す情報である。
文字情報取得部140は、後述する属性毎辞書情報記憶部150が記憶した辞書情報のうち、属性情報取得部130が取得した属性情報が示す属性に対応する辞書情報に基づき、音声認識部120が変換して生成した文字情報を処理装置により他の文字情報へ変換して、認識結果としてアプリケーション10へ返す。例えば、上記例であれば、文字情報取得部140は、「ジュウ」や「イチゼロ」という文字情報を、「10」という文字情報へ変換して「10」という文字情報をアプリケーション10へ返す。
属性毎辞書情報記憶部150は、入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報を記憶装置に記憶する。例えば、図2では、属性毎辞書情報記憶部150は、数値を入力する入力項目に対しては数値認識辞書、住所を入力する入力項目に対しては住所認識辞書、人名を入力する入力項目に対しては人名認識辞書等を記憶する。ここで、第1の文字情報とは、変換後の文字情報であり、文字情報取得部140が認識結果としてアプリケーション10へ返す文字情報である。第2の文字情報とは、音声認識部120が生成した文字情報と比較される文字情報であり、第1の文字情報の読みに当たる文字情報である。つまり、上記例であれば、第1の文字情報とは、「10」であり、第2の文字情報とは、「ジュウ」、「イチゼロ」である。
FIG. 2 is a functional block diagram showing functions of the phonetic
The phonetic
The voice
The
The attribute
The character
The attribute-specific dictionary
図3は、図2とは異なる音声文字変換装置100の構成を示す図である。
図3に示す音声文字変換装置100は、図2に示す音声文字変換装置100の機能のうち、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を備えず、音声認識装置101がその機能を備えている。つまり、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を外出しして、音声認識装置101に持たせている。つまり、音声認識装置101に、音声情報入力部110と音声認識部120とを持たせている。そして、音声文字変換装置100の情報取得部160は、音声認識装置101の音声認識部120が音声情報を変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。その他は、図2に示す音声文字変換装置100と同様である。
FIG. 3 is a diagram showing a configuration of the phonetic
3 does not have a function of converting speech information into character information indicating the sound in accordance with the language model, among the functions of the speech
図4は、アプリケーション10により表示される画面情報と、属性毎辞書情報記憶部150が記憶する辞書情報の一例を示す図である。
画面情報には、金額入力欄、住所入力欄、氏名入力欄の3つの入力項目がある。属性毎辞書情報記憶部150は、画面情報の3つの入力項目それぞれに対応する数値認識辞書、住所認識辞書、人名認識辞書の3つの辞書情報を記憶している。
各辞書には複数の第1の文字情報が記憶され、それぞれの第1の文字情報に対して1つ又は複数の第2の文字情報が記憶されている。例えば、数値認識辞書であれば、第1の文字情報「1」に対して、第2の文字情報「イチ」が、第1の文字情報「10」に対して、第2の文字情報「ジュウ」、「イチゼロ」等が記憶されている。
FIG. 4 is a diagram illustrating an example of screen information displayed by the
The screen information includes three input items: an amount input field, an address input field, and a name input field. The attribute-specific dictionary
Each dictionary stores a plurality of pieces of first character information, and one or more pieces of second character information are stored for each piece of first character information. For example, in the case of a numerical value recognition dictionary, the second character information “1” for the first character information “1”, and the second character information “juu” for the first character information “10”. "," Zero zero ", etc. are stored.
例えば、ユーザが端末から金額入力欄を選択したとする。つまり、金額入力欄にカーソルを合わせたとする。この場合、属性情報取得部130は、金額入力欄の属性を示す属性情報として、数値属性を取得する。ユーザが端末から金額入力欄を選択した状態で、ユーザが「10」を音声で「ジュウ」と入力したとする。この場合、音声情報入力部110が「ジュウ」という音声情報を入力して、音声認識部120が音声情報を「ジュウ」という文字情報へ変換する。そして、文字情報取得部140は、まず、属性毎辞書情報記憶部150が記憶した辞書情報のうち、属性情報取得部130が取得した属性情報に対応する辞書情報を検索して選択する。つまり、ここでは、数値を入力するので数値認識辞書を検索して選択する。次に、文字情報取得部140は、選択した辞書情報から音声認識部120により生成された文字情報と一致する第2の文字情報を検索する。つまり、数値認識辞書の第2の文字情報から「ジュウ」という文字情報を検索する。そして、文字情報取得部140は、検索した第2の文字情報に対応する第1の文字情報を取得する。つまり、第2の文字情報「ジュウ」に対応する第1の文字情報「10」を取得する。文字情報取得部140は、取得した第1の文字情報を認識結果としてアプリケーション10へ返す。つまり、文字情報「10」をアプリケーション10へ返す。アプリケーション10では、返された「10」を金額入力欄へ記入する。
For example, it is assumed that the user has selected an amount input field from the terminal. In other words, it is assumed that the cursor is placed on the amount input field. In this case, the attribute
また、図4において、住所認識辞書では、第1の文字情報が階層構造により互いに関連付けされている。例えば、「東京都」と「品川区」とは、「東京都」が親、「品川区」が子という階層構造で関連付けされている。同様に、「神奈川県」と「横浜市」、「鎌倉市」とは、「神奈川県」が親、「横浜市」、「鎌倉市」が子という階層構造で関連付けされている。
これは、例えば、「神奈川県横浜市」という住所を入力する場合に、「神奈川県」という県名を入力して、さらに「横浜市」という市名を入力する場合と、県名を入力することなく「横浜市」という市名を入力する場合とが考えられる。そこで、「神奈川県」という県名を入力して、さらに「横浜市」という市名を入力された場合には、入力された通り、まず「神奈川県」という文字情報を取得して認識情報として返し、次に「横浜市」という文字情報を取得して認識情報として返す。一方、県名を入力することなく「横浜市」という市名を入力された場合には、「横浜市」という文字情報を得る場合に、その親の階層の文字情報である「神奈川県」も合わせて取得する。そして、「神奈川県横浜市」という文字情報を認識情報として返す。つまり、親の第1の文字情報が取得されずに、子の第1の文字情報が取得された場合には、子の第1の文字情報と合わせて親の第1の文字情報を取得する。
なお、上記説明では、階層構造とすることで複数の第1の文字情報を関連付けし、子の第1の文字情報が取得された場合に、親の第1の文字情報も合わせて取得するとした。しかし、関連付けする構造は階層構造に限らない。例えば、2つの第1の文字情報を対等の関係で関連付けしておき、一方が取得される場合には、他方も取得するようにしてもよい。
つまり、属性毎辞書情報記憶部150は、複数の第1の文字情報のある第1の文字情報である一の文字情報と、一の文字情報とは異なる第1の文字情報である二の文字情報とを関連させて記憶する。そして、文字情報取得部140は、二の文字情報を第1の文字情報として取得した場合、二の文字情報に関連する一の文字情報も第1の文字情報として取得して、一の文字情報とニの文字情報とを認識情報として返す。
Also, in FIG. 4, in the address recognition dictionary, the first character information is associated with each other by a hierarchical structure. For example, “Tokyo” and “Shinagawa-ku” are associated with each other in a hierarchical structure in which “Tokyo” is a parent and “Shinagawa-ku” is a child. Similarly, “Kanagawa Prefecture”, “Yokohama City”, and “Kamakura City” are related by a hierarchical structure in which “Kanagawa Prefecture” is a parent and “Yokohama City” and “Kamakura City” are children.
For example, if you enter the address "Yokohama City, Kanagawa Prefecture", enter the name of the prefecture "Kanagawa Prefecture", then enter the city name "Yokohama City", and enter the name of the prefecture. It is conceivable that the city name “Yokohama City” can be entered without any problem. Therefore, if you enter the prefecture name “Kanagawa Prefecture” and then enter the city name “Yokohama City”, the character information “Kanagawa Prefecture” is first acquired as recognition information. Next, the character information “Yokohama City” is acquired and returned as recognition information. On the other hand, if you enter the city name “Yokohama City” without entering the prefecture name, when you get the character information “Yokohama City”, the parental character information “Kanagawa Prefecture” Acquire together. Then, character information “Yokohama City, Kanagawa Prefecture” is returned as recognition information. That is, when the first character information of the child is acquired without acquiring the first character information of the parent, the first character information of the parent is acquired together with the first character information of the child. .
In the above description, when the first character information of the child is acquired by associating the plurality of first character information with a hierarchical structure, the parent first character information is also acquired. . However, the associated structure is not limited to the hierarchical structure. For example, two pieces of first character information may be associated with each other in an equal relationship, and when one is acquired, the other may be acquired.
That is, the attribute-specific dictionary
図5は、この実施の形態に係る音声文字変換装置100の実装例(音声文字変換プログラムの一例)の説明図である。
図5では、HTMLを拡張したプログラムコードによる実装例と、そのプログラムコードにより表示されるシート(画面情報)とを示す。
HTMLを拡張したプログラムコードによる実装例では、画面情報として表示するためのタグ(例えば、SELECTタグ、INPUTタグ)と、文字情報の変換を行うタグ(VOICEタグ)とが混在している。つまり、図5に示す実装例では、アプリケーション10の中に音声文字変換装置100を組み込んでいる。画面情報として表示するタグのうち、情報を入力するためのタグは、文字情報の変換を行うタグとタグ名(入力タグ1、入力タグ2、入力タグ3)により対応している。例えば、SELECTタグであれば、その名称である「入力タグ1」により、同じ名称が付けられたVOICEタグと対応付けされている。
つまり、シートにおいて入力タグ1が選択されると、プログラムコードにおいて入力タグ1の名称が付けられたVOICEタグが実行される。ここで、VOICEタグには、その入力項目に対応する辞書情報が記述され、入力された音声情報が変換され生成された文字情報(例えば、「ジュウ」)を認識情報(例えば、「10」)へ変換する。なお、プログラムコードでは、音声情報が変換され生成された文字情報をアルファベットで表しているが、上記説明と同様にカタカナであってもよい。
例えば、入力タグ1のVOICEタグでは、「1万」、「10万」、「20万」が第1の文字情報として登録されている。そして、各第1の文字情報に対して、第2の文字情報が登録されている。例えば、第1の文字情報「10万」については、「zyuumann」、「ichizero」、「tou」が第2の文字情報として登録されている。また、さらに、汎用辞書「suu」が第2の文字情報として登録されている。汎用辞書「suu」は、一般的な数値属性の読みを集めた辞書情報であって、他のXMLファイル等に記憶された外部辞書である。つまり、画面情報として表示するためのタグと辞書情報を混在させてプログラムコードを作成すると、プログラムコードが煩雑になるおそれがある。そこで、そのプログラムコードで特に必要な第2の文字情報はプログラムコードに直に記載し、その他の一般的な第2の文字情報は外部辞書を読み込むようにしている。これにより、プログラムコードが煩雑になることはなく、また特に必要な第2の文字情報はプログラムコードに直に記載されているため処理速度も速い。
また、入力タグ2に対応するVOICEタグは、図4に基づき説明したように、階層関係を有している。つまり、県名を入力することなく、市名(例えば、「横浜市」)を入力すると、「神奈川県横浜市」が認識情報として返される。
FIG. 5 is an explanatory diagram of an implementation example (an example of a phonetic character conversion program) of the phonetic
FIG. 5 shows an implementation example using program codes obtained by extending HTML and sheets (screen information) displayed by the program codes.
In an implementation example using program codes in which HTML is expanded, tags (for example, a SELECT tag and an INPUT tag) for displaying as screen information and a tag (VOICE tag) for converting character information are mixed. That is, in the implementation example illustrated in FIG. 5, the phonetic
That is, when the
For example, in the VOICE tag of the
The VOICE tag corresponding to the input tag 2 has a hierarchical relationship as described with reference to FIG. That is, if a city name (for example, “Yokohama City”) is input without inputting a prefecture name, “Yokohama City, Kanagawa Prefecture” is returned as recognition information.
図6は、JAVAScript(登録商標)やAJAXによる実装例を示す図である。
JAVAScript(登録商標)やAJAXによる実装例もHTMLを拡張したプログラムコードによる実装例と同様に、図4に示す画面情報として表示するためのコード(input type・・・)と、文字情報の変換を行う関数(function inputtag1等)とが混在している。つまり、画面情報で入力項目が選択されると、選択された入力項目に対応する関数が呼ばれる。そして、その関数では、上記VOICEタグと同様の処理が実行される。
例えば、入力タグ1が選択されると、inputtag1関数が実行される。inputtag1関数には、辞書情報が直に記載されている(辞書配列は省略して記載している)。また、入力タグ2が選択されると、inputtag2関数が実行される。inputtag2関数では、XMLファイル等の外部ファイルに記載された外部辞書を呼ぶ。また、入力タグ3が選択されると、inputtag3関数が実行される。inputtag3関数では、文字情報取得部140による文字情報変換処理自体を他のプログラムを呼び出して実行する。
FIG. 6 is a diagram illustrating an implementation example using JAVAScript (registered trademark) or AJAX.
Similar to the implementation example using the program code that is an extension of HTML, the implementation example using JAVAScript (registered trademark) or AJAX is also converted to the code (input type...) For displaying as screen information shown in FIG. Functions to be performed (
For example, when the
また、例えば、HTMLやXMLのタグ名称に、図5に示すVOICEタグを予め対応付けしておくことで、通常通り画面情報を作成するだけで、文字情報の変換を行うタグを組み込んだプログラムコードを生成することができる。
例えば、タグ名称に「JUUSHO」と付けた場合には、「住所認識辞書」を備えるVOICEタグと関連付けされるように予め設定しておく。このようにすることにより、住所の入力欄を作成する際、そのタグ名称に「JUUSHO」と付けるだけで、自動的に「住所認識辞書」を備えるVOICEタグと関連付けされたプログラムコードが生成される。
また、SELECTタグのような選択式のタグであれば、選択対象として登録された単語を認識対象(第1の文字情報)とする辞書を生成するようにしておいてもよい。そして、第1の文字情報に対する第2の文字情報は、例えば、一般的な辞書から第1の文字情報をキーとして検索して取得するようにしてもよい。なお、認識対象が判別できない場合には、一般的な汎用辞書を設定するとしておいてもよい。
In addition, for example, by associating HTML and XML tag names with the VOICE tag shown in FIG. 5 in advance, a program code that incorporates a tag that converts character information simply by creating screen information as usual. Can be generated.
For example, when “JUUSHO” is added to the tag name, the tag name is set in advance so as to be associated with a VOICE tag including an “address recognition dictionary”. In this way, when creating an address entry field, simply adding “JUUSHO” to the tag name automatically generates a program code associated with a VOICE tag having an “address recognition dictionary”. .
In addition, in the case of a selection-type tag such as a SELECT tag, a dictionary that uses a word registered as a selection target as a recognition target (first character information) may be generated. And the 2nd character information with respect to 1st character information may be made to acquire by searching 1st character information for a key from a general dictionary, for example. If the recognition target cannot be determined, a general general dictionary may be set.
以上のように、この実施の形態に係る音声文字変換装置100によれば、入力項目毎に辞書情報を持つため、音声認識精度を高くすることができる。
また、辞書情報に登録された単語(第1の文字情報)を関連付けしておくことにより、入力情報を省略して入力した場合にも、必要な入力情報を補うことができる。
また、辞書情報を文書表示プログラムの中に埋め込むことにより、変換処理の高速化を図ることができる。一方、使用される確率の低い単語(第2の文字情報)については外部辞書とすることで、プログラムコードが複雑になることを防止できる。
As described above, according to the phonetic
In addition, by associating a word (first character information) registered in the dictionary information, necessary input information can be supplemented even when the input information is omitted.
Further, by embedding dictionary information in the document display program, the conversion process can be speeded up. On the other hand, it is possible to prevent the program code from becoming complicated by using an external dictionary for words (second character information) that have a low probability of being used.
実施の形態2.
この実施の形態では、実施の形態1に係る音声文字変換装置100を応用して、ユーザとオペレータとの間の会話を音声情報として取得することにより、電子書類を作成する方法について説明する。
Embodiment 2. FIG.
In this embodiment, a method of creating an electronic document by applying the phonetic
図7は、この実施の形態に係る音声文字変換装置100の機能の概要を示す概念図である。
ユーザとオペレータとは、例えば電話等により会話をする。音声文字変換装置100は、ユーザとオペレータとの会話を音声情報として取得して電子書類を作成する。音声文字変換装置100は、オペレータが「〜を教えてください」と言った場合に、「〜」に当たる入力項目へカーソルを合わせる。例えば、オペレータが「ご住所を教えてください」と言った場合には、「住所」の入力欄へカーソルを合わせる。すると、音声文字変換装置100は、実施の形態1で説明したように、カーソルが合わされた入力項目の属性情報を取得して、使用する辞書情報を切り替える。そして、オペレータからの「〜を教えてください」に対して、ユーザが「○○です」と答えた場合、音声文字変換装置100は「○○」を認識して、カーソルを合わせた入力欄へ記入する。これをすべての項目について繰り返すことにより、電子書類の作成ができる。
このように、音声文字変換装置100は、オペレータから入力された音声情報を認識して入力項目を切り替え、ユーザから入力された音声情報を認識して入力項目へ情報を記入する。そのため、カーソルの切り替え等の端末操作をすることなく、ユーザとオペレータとは単に会話をするだけで、電子書類の作成をすることができる。
FIG. 7 is a conceptual diagram showing an outline of the functions of the phonetic
The user and the operator have a conversation, for example, by telephone. The voice
As described above, the speech
図8は、この実施の形態に係る音声文字変換装置100の機能を示す機能ブロック図である。
この実施の形態に係る音声文字変換装置100は、実施の形態1に係る音声文字変換装置100の機能に加え、さらに、項目情報取得部170、項目識別辞書情報記憶部180を備える。また、音声情報入力部110は、第1の音声情報入力部111、第2の音声情報入力部112を備える。
第1の音声情報入力部111は、オペレータが出力した音声情報(第1の音声情報)をオペレータ端末11を介して処理装置により入力して記憶装置に記憶する。
第2の音声情報入力部112は、ユーザが出力した音声情報(第2の音声情報)をユーザ端末12を介して処理装置により入力して記憶装置に記憶する。
項目情報取得部170は、後述する項目識別辞書情報記憶部180が記憶した項目識別辞書情報に基づき、第1の音声情報入力部111が入力した音声情報を音声認識部120が変換して生成した文字情報と一致する項目文字情報を検索して、検索した項目文字情報に対応する項目識別情報を処理装置により取得する。
項目識別辞書情報記憶部180は、複数の入力項目の入力項目毎に、その入力項目を示す項目識別情報と所定の文字情報である項目文字情報とを対応付けした項目識別辞書情報を記憶装置に記憶する。項目識別辞書情報記憶部180は、例えば、金額を入力する入力項目であれば、その項目識別情報「金額入力欄」と、「金額」、「お金」、「値段」等の文字情報とを対応付けして記憶する。
また、属性情報取得部130は、項目情報取得部170が取得した項目識別情報が示す入力項目の属性情報を取得する。文字情報取得部140は、属性毎辞書情報記憶部150が記憶した辞書情報のうち、属性情報取得部130が取得した属性情報に対応する辞書情報を検索して選択する。文字情報取得部140は、選択した辞書情報に基づき、第2の音声情報入力部112が入力した音声情報を音声認識部120が変換して生成した文字情報に一致する第2の文字情報に対応する第1の文字情報を取得する。そして、文字情報取得部140は、取得した第1の文字情報を入力項目に記述(記憶)する。
FIG. 8 is a functional block diagram showing functions of the phonetic
The phonetic
The first voice
The second voice information input unit 112 inputs voice information (second voice information) output by the user from the processing device via the
The item
The item identification dictionary
Further, the attribute
図9は、図8とは異なる音声文字変換装置100の構成を示す図である。
図9に示す音声文字変換装置100は、図3に示す音声文字変換装置100と同様に、図8に示す音声文字変換装置100の機能のうち、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を外出しして、音声認識装置101に持たせている。
ここで、情報取得部160は、第1の情報取得部161、第2の情報取得部162を備える。第1の情報取得部161は、第1の音声情報入力部111が入力した音声情報を音声認識部120が変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。第2の情報取得部162は、第2の音声情報入力部112が入力した音声情報を音声認識部120が変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。
その他は、図8に示す音声文字変換装置100と同様である。
FIG. 9 is a diagram showing a configuration of a phonetic
The phonetic
Here, the
Others are the same as the phonetic
なお、上記説明では、オペレータから入力された音声情報により入力項目を切り替えるとした。しかし、オペレータだけでなくユーザから入力された音声情報により入力項目を切り替えしてもよい。
また、項目識別辞書情報記憶部180は、入力項目の順序を記憶しておき、「次へ」等の音声情報が入力された場合に、項目情報取得部170は現在カーソルが合わせられている入力項目の次の入力項目の項目識別情報を取得するとしてもよい。
また、オペレータはオペレータ端末11により、ボタン操作等で入力項目を変更してもよい。また、入力された情報(第1の文字情報)を訂正してもよい。
In the above description, input items are switched according to voice information input from an operator. However, the input items may be switched based on voice information input not only by the operator but also by the user.
Also, the item identification dictionary
In addition, the operator may change the input items by operating the buttons on the
以上のように、この実施の形態に係る音声文字変換装置100によれば、ユーザとオペレータとが会話をするだけで、電子書類を作成することができる。
As described above, according to the phonetic
実施の形態3.
この実施の形態では、ユーザにより入力された音声情報とオペレータにより入力された音声情報との2つの音声情報を使うことで、音声情報の認識精度を高める方法について説明する。
Embodiment 3 FIG.
In this embodiment, a method for improving the recognition accuracy of voice information by using two pieces of voice information, that is, voice information input by a user and voice information input by an operator will be described.
図10は、この実施の形態に係る音声文字変換装置100の機能の概要を示す概念図である。
図10では、オペレータが住所はどこかユーザに質問した場合を例として示す。住所を聞かれると、ユーザが「東京都」ですと答えたとする。すると、音声文字変換装置100は、ユーザが答えた「東京都」ですという音声情報を入力して、その音を示す文字情報へ変換する。ここでは、「とうひょうと」ですと変換されたとする。一方、オペレータはユーザが答えた内容を確認するため「東京都」ですねと復唱する。すると、音声文字変換装置100は、オペレータが復唱した「東京都」ですねという音声情報を入力して、その音を示す文字情報へ変換する。ここでは、「とおきょうと」ですねと変換されたとする。そして、音声文字変換装置100は、2つの音声情報を変換して生成した2つの文字情報「とうひょうと」と「とおきょうと」とを比較する。すると、「う」と「お」、「ひ」と「き」という2箇所の文字情報が不一致であることがわかる。そこで、この不一致の文字情報について、ユーザの音声情報から変換された文字情報とオペレータの音声情報から変換された文字情報とのどちらが確からしいか判断して、確からしい方の文字情報を採用する。例えば、ここでは、「う」と「お」についてはユーザの音声情報から変換された文字情報「う」が確からしい、「ひ」と「き」についてはオペレータの音声情報から変換された文字情報「き」が確からしいと判断したとする。つまり、「う」と「き」とを採用する。そして、「とうきょうと」という文字情報を生成する。
また、音声文字変換装置100は、音声情報から文字情報へ変換する際の規則を音声情報を入力する人毎に定めた言語モデルを、認識結果に基づき変更して、変換の確度(認識率)を高める。つまり、音声文字変換装置100は、上記例では、「とうひょうと」と変換されてしまったユーザの発音(例えば、イントネーションや音の周波数)は、このユーザの場合は「とうきょうと」と変換しなければならないことがわかる。したがって、この結果に基づき、音声文字変換装置100は、言語モデルを変更する。
このように、音声文字変換装置100は、2つの音声情報を使うことで認識率を高めるとともに、認識結果に基づき言語モデルを改善していくことでさらに認識率を高める。そのため、ユーザとオペレータとが会話を行う度に、認識率が高くなる。
FIG. 10 is a conceptual diagram showing an outline of functions of the phonetic
FIG. 10 shows an example where the operator asks the user where the address is. Suppose the user answers "Tokyo" when asked for his address. Then, the voice
Further, the phonetic
As described above, the phonetic
図11は、この実施の形態に係る音声文字変換装置100の機能を示す機能ブロック図である。
この実施の形態に係る音声文字変換装置100の音声認識部120は、音声変換部121、文字情報比較部122、不一致部分決定部123、文字情報生成部124、言語モデル記憶部125、言語モデル更新部126を備える。その他は、実施の形態2に係る音声文字変換装置100と同様である。
音声変換部121は、オペレータ(第1の音声情報入力部111)が入力した第1の音声情報を上記オペレータ用の言語モデルに基づき文字情報へ処理装置により変換する。同様に、音声変換部121は、ユーザ(第2の音声情報入力部112)が入力した第2の音声情報を上記ユーザ用の言語モデルに基づき文字情報へ処理装置により変換する。また、音声変換部121は、音声情報から文字情報へ変換する場合、変換後の文字情報について1文字毎に、変換が正しい確度を処理装置により計算する。
文字情報比較部122は、音声変換部121が認識した2つの文字情報とを比較して、不一致部分を処理装置により抽出する。
不一致部分決定部123は、文字情報比較部122が比較して抽出した不一致部分の文字情報を、2つの文字情報とのいずれかの不一致部分の文字情報に処理装置により決定する。不一致部分決定部123は、音声変換部121が計算した確度に基づき、不一致部分の文字情報について1文字毎にどちらの文字情報を使用するか決定する。
文字情報生成部124は、2つの文字情報のいずれかの不一致部分を不一致部分決定部123が決定した文字情報に置き換えて、文字情報を処理装置により生成する。
言語モデル記憶部125は、音声情報を入力する人毎(つまり、ユーザ、オペレータ毎)に、音声情報を文字情報へ変換するための言語モデルを記憶装置に記憶する。
言語モデル更新部126は、文字情報生成部124が生成した文字情報と第1の音声情報とに基づき、上記オペレータの言語モデルを更新するとともに、文字情報生成部124が生成した文字情報と第2の音声情報とに基づき、上記ユーザの言語モデルを処理装置により更新する。
FIG. 11 is a functional block diagram showing functions of the phonetic
The
The voice conversion unit 121 converts the first voice information input by the operator (first voice information input unit 111) into character information by the processing device based on the language model for the operator. Similarly, the voice conversion unit 121 converts the second voice information input by the user (second voice information input unit 112) into character information by the processing device based on the language model for the user. In addition, when converting the voice information to the character information, the voice conversion unit 121 calculates, with the processing device, the accuracy with which the conversion is correct for each character of the converted character information.
The character
The non-matching
The character
The language
The language
図12は、図10に基づき説明した音声情報から文字情報へ変換する処理を補足説明するための図である。
上述したように、言語モデル記憶部125が音声情報を入力する人毎に言語モデルを記憶して、音声変換部121が音声情報を入力した人の言語モデルに基づき、音声情報を文字情報へ変換する。つまり、いわゆる特定話者タイプの音声認識処理を行う。この場合、言語モデルがその人(音声情報を入力した人)の発音についての情報をどれだけ持っているか、つまりどれだけ学習しているかにより認識の確度が変わる。つまり、その人の発音について学習しているほど、認識の確度は高くなる。また、発音の明確さ等によっても、認識の確度が変わる。音声変換部121は、音声情報から文字情報へ変換しながら、この認識の確度を文字毎に計算する。
例えば、図12に示す例では、ユーザは新規の顧客で、言語モデルは未学習状態であり、オペレータは習熟度の高いオペレータで、言語モデルの学習も進んでいる状態であるとする。そのため、ユーザが入力した音声情報を変換した「とうひょうと」という文字情報は、全体的に認識確度が低い。一方、オペレータが入力した音声情報を変換した「とおきょうと」という文字情報は、全体的に認識確度が高い。しかし、オペレータが入力した音声情報を変換した「とおきょうと」の「お」は発音が不明確であったため、認識確度が低い。ここでは、文字情報比較部122が2つの文字情報を比較して抽出した不一致部分の文字情報の認識確度は、ユーザが入力した音声情報を変換した「とうひょうと」の「う」が60%、「ひ」が30%、オペレータが入力した音声情報を変換した「とおきょうと」の「お」が50%、「き」が90%であったとする。
不一致部分決定部123は、「う」(60%)と「お」(50%)を比較して、認識確度の高い「う」を採用し、「ひ」(30%)と「き」(90%)を比較して、認識確度の高い「き」を採用する。
文字情報生成部124は、例えば、「とうひょうと」の不一致部分である「う」と「ひ」とをそれぞれ、「う」と「き」とに置き換えて、「とうきょうと」という文字情報を生成する。
また、言語モデル更新部126は、文字情報生成部124が生成した「とうきょうと」という文字情報と、ユーザの発音(とうひょうと)とに基づき、ユーザの言語モデルを更新する。また、言語モデル更新部126は、文字情報生成部124が生成した「とうきょうと」という文字情報と、オペレータの発音(とおきょうと)とに基づき、オペレータの言語モデルを更新する。
FIG. 12 is a diagram for supplementarily explaining the process of converting voice information to character information described with reference to FIG.
As described above, the language
For example, in the example shown in FIG. 12, it is assumed that the user is a new customer, the language model is in an unlearned state, the operator is an operator with a high level of proficiency, and the language model is being learned. Therefore, the character information “Toyo Hyoto” obtained by converting the voice information input by the user has a low recognition accuracy as a whole. On the other hand, the character information “Toyoyoto” obtained by converting the voice information input by the operator has a high recognition accuracy as a whole. However, “O” of “Toyoyo” obtained by converting the voice information input by the operator has an unclear pronunciation, so the recognition accuracy is low. Here, the recognition accuracy of the character information of the mismatched portion extracted by comparing the two character information by the character
The non-matching
For example, the character
Further, the language
なお、ユーザやオペレータが入力した音声情報から特定の音声情報を抜き出す方法(例えば、「とうきょうとです」という音声情報から「とうきょうと」を抜き出す方法)についてはどのようなものであっても構わない。例えば、一般的に語尾に付けられる「です」、「ですね」や語頭に付けられる「それは」(「それは・・・です」というような場合)等は、省くようにしておいてもよい。また、この省く情報についても言語モデルと同様に学習するようにしてもよい。 Any method may be used for extracting specific audio information from the audio information input by the user or operator (for example, extracting “Tokyo” from the audio information “Tokyo is”). . For example, “is”, “sound” that is generally added to the end of a word, “it” that is added to the beginning of a word (in the case of “that is ...”), etc. may be omitted. Further, this omitted information may be learned in the same manner as the language model.
以上のように、この実施の形態に係る音声文字変換装置100によれば、ユーザとオペレータとの2つの音声情報を用いて、1つの文字情報へ変換することにより認識精度を高くすることができる。
また、2つの音声情報から生成された文字情報と、入力された音声情報とを用いて言語モデルを更新するため、ユーザとオペレータとが会話をするほど認識精度が高くなる。
なお、実施の形態1に示す文字情報の変換処理と合わせて実施することにより、音声情報から認識結果を導く精度をさらに高くすることができる。
As described above, according to the phonetic
Moreover, since the language model is updated using the character information generated from the two pieces of voice information and the input voice information, the recognition accuracy increases as the user and the operator have a conversation.
It should be noted that the accuracy of deriving the recognition result from the speech information can be further increased by carrying out the processing together with the character information conversion processing shown in the first embodiment.
実施の形態4.
この実施の形態では、上記実施の形態で説明した音声文字変換装置100をコールセンターシステムに応用した例について説明する。
Embodiment 4 FIG.
In this embodiment, an example in which the phonetic
図13は、この実施の形態に係る音声文字変換装置100の機能の概要を示す概念図である。
例えば、金融業等において商品を販売する際に、事前にその商品のリスク等の所定の説明をユーザへ行うことが義務付けされている場合がある。コールセンターにおいて、ユーザから商品の購入の申し出がされた場合、オペレータは義務付けされている説明を行う。しかし、義務付けされている説明は商品毎に定められたものであるため、オペレータは単にその説明を読み上げしているに過ぎない。
そこで、その説明をオペレータに代わり音声文字変換装置100が音声により行う。音声文字変換装置100は、音声による説明が終了すると、ユーザに説明内容を了解してもらえるか否か確認する。この際、ユーザはオペレータと会話する場合と同様、音声で了解するか否かを入力する。すると、音声文字変換装置100は、確認認識辞書を使って入力された音声情報を認識して、オペレータへ認識結果を送信する。オペレータは認識結果により、ユーザが説明を了解したか否かを知ることができる。そして、了解している場合には、オペレータはユーザと通話して商品の購入のための処理へ進む。
また、音声文字変換装置100は、音声による説明中もユーザからの音声の入力を受け付ける。例えば、ユーザが説明を一時停止して欲しい場合には、その旨を音声により入力する。すると、音声文字変換装置100は割込認識辞書を使って入力された音声を認識して、説明を一時停止する。また、ユーザが説明内容について質問がある場合も同様にその旨を音声により入力する。すると、音声文字変換装置100は割込認識辞書を使って入力された音声を認識して、認識結果をオペレータへ送信する。オペレータは、認識結果により、ユーザが説明に質問があることを知ることができる。そこで、オペレータはユーザと通話して質問に対応することができる。
このように、音声文字変換装置100がオペレータに代わって音声により説明を行い、ユーザからの応答を音声により受付する。そのため、オペレータは、音声文字変換装置100が説明を行っている間、他の作業をすることができ作業効率を高くすることができる。また、ユーザにとっては、オペレータから説明を受けているのと同様の説明を受けることができる。さらに、ユーザは、質問がある場合等にも機械の操作ではなく、オペレータが対応しているときと同様に音声により質問があることを伝えることができ、不慣れな機械操作を行う必要がない。
FIG. 13 is a conceptual diagram showing an outline of functions of the phonetic
For example, when a product is sold in a financial business or the like, it may be obliged to give a user a predetermined explanation about the risk of the product in advance. In the call center, when a user offers to purchase a product, the operator gives a mandatory explanation. However, since the required explanation is determined for each product, the operator simply reads out the explanation.
Therefore, the voice
In addition, the voice
In this way, the voice
図14は、この実施の形態に係る音声文字変換装置100の機能を示す機能ブロック図である。
この実施の形態に係る音声文字変換装置100は、実施の形態1に係る音声文字変換装置100の機能に加え、音声出力部190、確認情報要求部200、送信部210を備える。
音声出力部190は、記憶装置に記憶された所定の説明情報を音声情報として出力する。音声出力部190は、予め音声情報として記憶された説明情報をそのまま音声情報として出力してもよいし、文字情報等として記憶された説明情報を音声情報へ変換して出力してもよい。
確認情報要求部200は、音声出力部190が説明情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する。つまり、確認情報要求部200は、説明した内容を了解したか否かの入力を要求する。これに対して、音声情報入力部110は、ユーザが入力した確認情報を音声情報として入力し、音声認識部120が文字情報へ変換する。そして、文字情報取得部140は、属性毎辞書情報記憶部150が記憶した辞書情報のうち、確認情報用の辞書情報である確認認識辞書に基づき、音声認識部120が変換した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する。例えば、第1の文字情報としては、「了解」、「取消」等が登録されている。また、第1の文字情報「了解」に対する第2の文字情報としては「リョウカイ」、「カクニン」等が登録され、第1の文字情報「取消」に対する第2の文字情報としては「トリケシ」、「キャンセル」等が登録されている。
送信部210は、文字情報取得部140が取得した第1の文字情報を確認情報として、オペレータの端末へ通信装置を介して送信する。
FIG. 14 is a functional block diagram showing functions of the phonetic
Spoken
The
When the
The
また、音声情報入力部110は、音声出力部190が説明情報の出力中に、ユーザが入力した割込情報を音声情報として入力する。音声認識部120は、入力された音声情報を文字情報へ変換する。文字情報取得部140は、属性毎辞書情報記憶部150が記憶した辞書情報のうち、割込情報用の辞書情報である割込認識辞書に基づき、音声認識部120が変換した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する。送信部210は、文字情報取得部140が取得した第1の文字情報を割込情報として、オペレータの端末へ通信装置を介して送信する。
Also, the voice
なお、属性情報取得部130は、音声出力部190が音声情報を出力する際、音声出力部190から属性情報として割込属性を取得し、音声出力部190が音声情報を出力を終えると、音声出力部190から属性情報として確認属性を取得する。文字情報取得部140は、実施の形態1と同様に属性情報取得部130が取得した属性情報に従い、使用する辞書情報を切り替えする。
また、ユーザからの入力は音声情報とともに、ボタン操作等による入力も受付してもよい。
また、説明は音声だけでなく、合わせて映像等をユーザの端末へ表示してもよい。
The attribute
Further, the input from the user may be received by the button operation or the like together with the voice information.
In addition, the description may display not only audio but also video or the like on the user terminal.
図15は、この実施の形態に係る音声文字変換装置100の実装例(双方向説明確認プログラムの一例)の説明図である。
図15に示す双方向説明確認プログラムでは、説明文をユーザの端末へ表示するとともに、音声出力する。同様に、確認要求する場面では、確認/取消ボタンをユーザの端末へ表示するとともに、音声出力して、ボタンによる確認/取消の入力とともに、音声による確認/取消の入力を受け付ける。
また、表示するタグ(例えば、INPUTタグ)と、音声出力のタグ(VOICEタグ)とがタグ名称によって関連付けされている。
なお、図15では、HTMLを拡張したプログラムコードにより実装例を示したが、図6に基づき説明したようなJAVAScript(登録商標)やAJAXにより実装しても構わない。
FIG. 15 is an explanatory diagram of an implementation example (an example of a bidirectional explanation confirmation program) of the phonetic
In the interactive explanation confirmation program shown in FIG. 15, the explanatory text is displayed on the user's terminal and output as a voice. Similarly, in a scene where confirmation is requested, a confirmation / cancel button is displayed on the user's terminal and is output as a voice to accept confirmation / cancellation input by voice as well as confirmation / cancellation input by the button.
A tag to be displayed (for example, an INPUT tag) and a tag for voice output (VOICE tag) are associated with each other by a tag name.
In FIG. 15, an example of implementation is shown by using program codes obtained by extending HTML. However, implementation using JAVAScript (registered trademark) or AJAX as described with reference to FIG. 6 is also possible.
以上のように、この実施の形態に係る音声文字変換装置100によれば、音声文字変換装置100がオペレータに代わって音声により説明を行い、ユーザからの応答を音声により受付するため、オペレータは、音声文字変換装置100が説明を行っている間、他の作業をすることができ作業効率を高くすることができる。
また、ユーザは音声による操作のみで足りるため、ユーザにとっても不便となることはない。
また、音声文字変換装置100は設定された説明文を脚色することなく出力するため、オペレータによる説明よりも的確に内容を伝えることができる。
As described above, according to the phonetic
Further, since the user only needs to operate by voice, there is no inconvenience for the user.
Further, since the voice
次に、上記実施の形態における音声文字変換装置100のハードウェア構成について説明する。
図16は、音声文字変換装置100のハードウェア構成の一例を示す図である。
図16に示すように、音声文字変換装置100は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、LCD901(Liquid Crystal Display)、キーボード902、通信ボード915、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
Next, the hardware configuration of the phonetic
FIG. 16 is a diagram illustrating an example of a hardware configuration of the phonetic
As shown in FIG. 16, the phonetic
ROM913、磁気ディスク装置920は、不揮発性メモリの一例である。RAM914は、揮発性メモリの一例である。ROM913とRAM914と磁気ディスク装置920とは、記憶装置の一例である。通信ボード915とキーボード902とは、入力装置の一例である。また、通信ボード915は、出力装置の一例である。さらに、通信ボード915は、通信装置の一例である。また、さらに、LCD901は、表示装置の一例である。
The
磁気ディスク装置920又はROM913などには、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
An operating system 921 (OS), a
プログラム群923には、上記の説明において音声文字変換装置100の各処理を実行するプログラムやその他のプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。つまり、「音声情報入力部110」、「音声認識部120」、「属性情報取得部130」、「文字情報取得部140」、「情報取得部160」、「項目情報取得部170」として説明した機能を実行するプログラムやその他のプログラムが記憶されている。
ファイル群924には、上記の説明において音声文字変換装置100が扱う情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。つまり、「属性毎辞書情報記憶部150」、「項目識別辞書情報記憶部180」が記憶した情報が、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPU911の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPU911の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、その他光ディスク等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
The
The
In addition, the arrows in the flowchart in the above description mainly indicate input / output of data and signals, and the data and signal values are recorded in a memory of the
また、上記の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。また、「〜装置」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。さらに、「〜処理」として説明するものは「〜ステップ」であっても構わない。すなわち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ROM913等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、上記で述べた「〜部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「〜部」の手順や方法をコンピュータ等に実行させるものである。
In addition, what is described as “to part” in the above description may be “to circuit”, “to device”, “to device”, “to means”, and “to function”. It may be “step”, “˜procedure”, “˜processing”. In addition, what is described as “˜device” may be “˜circuit”, “˜device”, “˜device”, “˜means”, “˜function”, and “˜step”, “ ~ Procedure "," ~ process ". Furthermore, what is described as “to process” may be “to step”. That is, what is described as “˜unit” may be realized by firmware stored in the
10 アプリケーション、11 オペレータ端末、12 ユーザ端末、100 音声文字変換装置、101 音声認識装置、110 音声情報入力部、111 第1の音声情報入力部、112 第2の音声情報入力部、120 音声認識部、121 音声変換部、122 文字情報比較部、123 不一致部分決定部、124 文字情報生成部、125 言語モデル記憶部、126 言語モデル更新部、130 属性情報取得部、140 文字情報取得部、150 属性毎辞書情報記憶部、160 情報取得部、161 第1の情報取得部、162 第2の情報取得部、170 項目情報取得部、180 項目識別辞書情報記憶部、190 音声出力部、200 確認情報要求部、210 送信部。
DESCRIPTION OF
Claims (4)
上記項目識別辞書情報記憶部が記憶した項目識別辞書情報から、第1端末によって入力された第1の音声情報を変換して生成された文字情報と一致する項目文字情報を検索して、検索した項目文字情報に対応する項目識別情報を処理装置により取得する項目情報取得部と、
第1の文字情報と、上記第1の文字情報の読み方を表す第2の文字情報とを対応付けした辞書情報を記憶装置に記憶する属性毎辞書情報記憶部と、
上記属性毎辞書情報記憶部が記憶した辞書情報から、第2端末によって入力された第2の音声情報を変換して生成された文字情報と一致する第2の文字情報を検索して、検索した第2の文字情報に対応する第1の文字情報を処理装置により取得し、取得した第1の文字情報を上記項目情報取得部が取得した項目識別情報が示す入力項目への入力情報とする文字情報取得部と
を備えることを特徴とする音声文字変換装置。 Item character information that is a plurality of input items in a predetermined application program and for each input item of the plurality of input items to which an attribute is assigned to each input item, and item character information that is the predetermined character information An item identification dictionary information storage unit that stores, in a storage device, item identification dictionary information associated with
The above from the item identification dictionary data item identification dictionary information storage section is stored, by searching the item text information matching the first character information generated by converting the voice information input by the first terminal, and search An item information acquisition unit for acquiring item identification information corresponding to the item character information by the processing device;
A first character information, and the first attribute for each dictionary information storage unit for storing the dictionary information associating the second text information representing the reading of the character information in the storage device,
From the dictionary information the attribute for each dictionary information storage section is stored, by searching the second character information matches the second character information generated by converting the voice information input by the second terminal, and searches The first character information corresponding to the second character information is acquired by the processing device, and the acquired first character information is used as input information to the input item indicated by the item identification information acquired by the item information acquisition unit. A phonetic character conversion device comprising: an information acquisition unit.
上記文字情報取得部は、上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記項目情報取得部が取得した項目識別情報が示す入力項目の属性に対応する辞書情報から、上記第2の音声情報を変換して生成された文字情報と一致する第2の文字情報を検索するThe character information acquisition unit, from the dictionary information stored in the attribute information dictionary information storage unit, from the dictionary information corresponding to the attribute of the input item indicated by the item identification information acquired by the item information acquisition unit, the second information Search for second character information that matches character information generated by converting voice information.
ことを特徴とする請求項1に記載の音声文字変換装置。The phonetic character conversion device according to claim 1.
処理装置が、第1の文字情報と、上記第1の文字情報の読み方を表す第2の文字情報とを対応付けした辞書情報から、第2端末によって入力された第2の音声情報を変換して生成された文字情報と一致する第2の文字情報を検索して、検索した第2の文字情報に対応する第1の文字情報を取得し、取得した第1の文字情報を上記項目情報取得ステップで取得した項目識別情報が示す入力項目への入力情報とする文字情報取得ステップと
を備えることを特徴とする音声文字変換方法。 Processing apparatus, a plurality of input items in a given application program, for each input item of the plurality of input items attribute is assigned to each input item, an item identification information and predetermined character information indicating the input items Search for item character information that matches the character information generated by converting the first voice information input by the first terminal from the item identification dictionary information associated with certain item character information, and the searched item An item information acquisition step for acquiring item identification information corresponding to the character information ;
Processing device converts the first character information, from the dictionary information associated with the second character information representing the reading of the first character information, the second audio information input by the second terminal The second character information that matches the character information generated in this way is searched, the first character information corresponding to the searched second character information is acquired, and the acquired first character information is acquired as the item information. A phonetic character conversion method comprising: a character information acquisition step as input information to an input item indicated by the item identification information acquired in the step.
第1の文字情報と、上記第1の文字情報の読み方を表す第2の文字情報とを対応付けした辞書情報から、第2端末によって入力された第2の音声情報を変換して生成された文字情報と一致する第2の文字情報を検索して、検索した第2の文字情報に対応する第1の文字情報を取得し、取得した第1の文字情報を上記項目情報取得処理で取得した項目識別情報が示す入力項目への入力情報とする文字情報取得処理と
をコンピュータに実行させることを特徴とする音声文字変換プログラム。 Item character information that is a plurality of input items in a predetermined application program and for each input item of the plurality of input items to which an attribute is assigned to each input item, and item character information that is the predetermined character information Is searched for item character information that matches the character information generated by converting the first voice information input by the first terminal from the item identification dictionary information that is associated with and corresponds to the searched item character information Item information acquisition processing for acquiring item identification information to be performed;
A first character information, from the dictionary information associated with the second character information representing the reading of the first character information, which is generated by converting the second voice information input by the second terminal The second character information that matches the character information is searched, the first character information corresponding to the searched second character information is acquired, and the acquired first character information is acquired by the item information acquisition process. A phonetic character conversion program that causes a computer to execute character information acquisition processing as input information to an input item indicated by item identification information .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008085111A JP4749437B2 (en) | 2008-03-28 | 2008-03-28 | Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008085111A JP4749437B2 (en) | 2008-03-28 | 2008-03-28 | Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009237386A JP2009237386A (en) | 2009-10-15 |
JP4749437B2 true JP4749437B2 (en) | 2011-08-17 |
Family
ID=41251372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008085111A Expired - Fee Related JP4749437B2 (en) | 2008-03-28 | 2008-03-28 | Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4749437B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101357710B1 (en) * | 2013-06-18 | 2014-02-04 | (주) 엠티콤 | Method for electronic document producing and inquiring, and recording medium |
JP6744025B2 (en) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | Work support system, management server, mobile terminal, work support method and program |
CN112337094B (en) * | 2020-10-27 | 2022-11-25 | 四川长虹电器股份有限公司 | Voice game interaction method |
JP7511623B2 (en) | 2022-12-08 | 2024-07-05 | 株式会社アドバンスト・メディア | Information processing device, information processing system, information processing method, and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04322546A (en) * | 1991-04-22 | 1992-11-12 | Nippon Telegr & Teleph Corp <Ntt> | Operator terminal equipment |
JP3810551B2 (en) * | 1997-03-18 | 2006-08-16 | 株式会社エヌ・ティ・ティ・データ | Voice recognition system, call center system, voice recognition method and recording medium |
JP3581648B2 (en) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | Speech recognition system, information processing device, control method thereof, and program |
JP2002215584A (en) * | 2001-01-22 | 2002-08-02 | Omron Corp | Device, method, and program for voice response, and computer-readable recording medium where the same is recorded |
JP2005108087A (en) * | 2003-10-01 | 2005-04-21 | Mitsubishi Electric Corp | Web page input device and program |
JP2006078829A (en) * | 2004-09-10 | 2006-03-23 | Chugoku Electric Power Co Inc:The | Speech recognition device and speech recognition method |
-
2008
- 2008-03-28 JP JP2008085111A patent/JP4749437B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009237386A (en) | 2009-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (en) | Utterance analysis device, voice dialogue control device, method, and program | |
JP4680691B2 (en) | Dialog system | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN100578614C (en) | Semantic object synchronous understanding implemented with speech application language tags | |
WO2019024692A1 (en) | Speech input method and device, computer equipment and storage medium | |
JP2002116796A (en) | Voice processor and method for voice processing and storage medium | |
CN101276245A (en) | Reminding method and system for coding to correct error in input process | |
JP6535998B2 (en) | Voice learning device and control program | |
KR20200080400A (en) | Method for providing sententce based on persona and electronic device for supporting the same | |
JP4749437B2 (en) | Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program | |
US20060095263A1 (en) | Character string input apparatus and method of controlling same | |
JP2018072508A (en) | Voice input device and voice input method | |
Vu et al. | GPTVoiceTasker: LLM-powered virtual assistant for smartphone | |
JP4749438B2 (en) | Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program | |
US20050288933A1 (en) | Information input method and apparatus | |
JP4815463B2 (en) | Phonetic character conversion device, phonetic character conversion method, and phonetic character conversion program | |
JP2020197592A (en) | Text correction device and text correction method | |
US20060149545A1 (en) | Method and apparatus of speech template selection for speech recognition | |
JP4924148B2 (en) | Pronunciation learning support device and pronunciation learning support program | |
US20080256071A1 (en) | Method And System For Selection Of Text For Editing | |
CN112541651B (en) | Electronic device, pronunciation learning method, server device, pronunciation learning processing system, and recording medium | |
CN113763961B (en) | Text processing method and device | |
JP3877975B2 (en) | Keyboardless input device and method, execution program for the method, and recording medium therefor | |
WO2021205832A1 (en) | Information processing device, information processing system, and information processing method, and program | |
JP4797307B2 (en) | Speech recognition apparatus and speech recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110517 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4749437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |