JP6712940B2 - Voice input device, voice input method - Google Patents
Voice input device, voice input method Download PDFInfo
- Publication number
- JP6712940B2 JP6712940B2 JP2016210651A JP2016210651A JP6712940B2 JP 6712940 B2 JP6712940 B2 JP 6712940B2 JP 2016210651 A JP2016210651 A JP 2016210651A JP 2016210651 A JP2016210651 A JP 2016210651A JP 6712940 B2 JP6712940 B2 JP 6712940B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- data
- text data
- keyword
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 34
- 238000013075 data extraction Methods 0.000 claims description 31
- 238000013500 data storage Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Description
本発明は、音声入力装置、音声入力方法に関する。 The present invention relates to a voice input device and a voice input method.
各種サービスの申し込み画面における入力項目に対して、スマートフォンのタッチパネルや、PC(パーソナルコンピュータ)に接続されたキーボード等の入力装置から文字列等を入力することで、申込データの作成が行なわれている。申込画面においては、入力項目が複数存在するものがあり、例えば、氏名、住所、電話番号等の入力項目がある。
このような入力項目に対してデータを入力する場合、ユーザは、入力対象の入力項目の入力欄を画面上でタッチしたり、マウスを操作して入力欄までポインタを移動させてクリックすることで、どの入力項目に入力するかを選択する。そして、タッチパネルやキーボードからデータを入力する。
このような入力項目に対するデータの入力方法として、文字列を入力装置から入力する方法以外に、音声で入力することができるものもある(例えば、特許文献1参照)。
Application data is created by inputting character strings or the like to input items on application screens for various services from a touch panel of a smartphone or an input device such as a keyboard connected to a PC (personal computer). .. Some application screens have a plurality of input items, for example, input items such as name, address, and telephone number.
When inputting data for such an input item, the user touches the input field of the input item to be input on the screen or operates the mouse to move the pointer to the input field and click. , Select which input item to enter. Then, the data is input from the touch panel or the keyboard.
As a method of inputting data for such an input item, there is a method of inputting a voice by using a method other than a method of inputting a character string from an input device (for example, refer to Patent Document 1).
しかしながら、入力項目が複数ある場合、ユーザは、入力する対象の入力項目をタッチ入力等することで指定した後に発話し、その後、次の入力項目をタッチ入力することで指定し、発話をするという動作を繰り返す必要があり、入力項目が増えるほど、タッチ操作等をして入力する対象の入力項目を指定する操作の数が増大し、入力にかかる手間が増大する。 However, when there are a plurality of input items, the user speaks after specifying the input item to be input by touch input, etc., and then touches the next input item to specify and speak. It is necessary to repeat the operation, and as the number of input items increases, the number of operations for designating an input item to be input by performing a touch operation or the like increases and the time and effort required for input increases.
本発明は、このような事情に鑑みてなされたもので、その目的は、複数の入力項目に対して音声入力を行なう場合における操作入力にかかる手間を増大させないようにすることができる音声入力装置、音声入力方法を提供することにある。 The present invention has been made in view of such circumstances, and an object thereof is a voice input device capable of preventing an increase in time and effort required for operation input when voice input is performed for a plurality of input items. , Providing a voice input method.
上述した課題を解決するために、本発明は、集音された音声に応じた音声信号からテキストデータを生成する音声認識部と、前記テキストデータに含まれるキーワードを複数検出し、検出されたキーワードのうち、第1キーワードと第2キーワードの間のテキストデータを前記第1キーワードに対する分割テキストデータとして抽出し、前記第2キーワードの後段のテキストデータの少なくとも一部から第2キーワードに対する分割テキストデータとして抽出する入力データ抽出部と、入力項目に対する分割テキストデータの候補である単語と、前記入力項目を構成する複数の小項目のうち少なくとも1つとを対応づけて記憶する辞書データ記憶部と、入力操作に応じてテキストデータを入力可能な入力欄を複数含んだ入力対象データが表示される表示画面における入力欄に対し、前記入力欄に入力する対象となるテキストデータを、前記入力データ抽出部によって得られた分割テキストデータから取得して、対応する前記入力欄にそれぞれ入力するデータ入力部と、を有し、前記入力データ抽出部は、分割キーワードから検出されたキーワードに前記辞書データ記憶部に記憶された単語がある場合に、当該キーワードのすぐ後ろ側にある文字列を、前記テキストデータに小項目の名称が含まれていなくても小項目に分割する対象の文字列であると特定し、前記データ入力部は、前記表示画面に表示された小項目の名称のうち前記単語に対応する小項目の名称に対して対応関係にある入力欄に、前記小項目に分割する対象の文字列であると特定された文字列に基づいて得られる単語を記述する。
In order to solve the above-mentioned problems, the present invention detects a plurality of keywords included in a voice recognition unit that generates text data from a voice signal corresponding to a collected voice, and the keywords included in the text data, and detects the detected keywords. Among them, the text data between the first keyword and the second keyword is extracted as the fragment text data for the first keyword, and at least a part of the text data in the latter part of the second keyword is extracted as the fragment text data for the second keyword. An input data extraction unit for extracting, a word that is a candidate for the divided text data for the input item, and a dictionary data storage unit that stores at least one of a plurality of small items that make up the input item in association with each other, and an input operation. The input data extraction unit obtains the text data to be input to the input field for the input field on the display screen in which the input target data including a plurality of input fields in which the text data can be input is displayed. was acquired from split the text data has a corresponding data input unit for inputting to each of the input field, wherein the input data extraction unit, the dictionary data storage unit to the detected keyword from dividing keyword If there is a stored word, specify the character string immediately after the keyword as the target character string to be divided into small items even if the text data does not include the name of the small item. , The data input unit has a character string to be divided into the small items in an input field having a correspondence relationship with the name of the small item corresponding to the word among the names of the small items displayed on the display screen. Describe the word obtained based on the string specified to be .
また、本発明は、上述の音声入力装置において、前記入力項目に対応した変換データを記憶する変換データ記憶部と、前記入力データ抽出部によって抽出された分割テキストデータの少なくとも一部に前記変換データ記憶部に記憶された変換対象の文字が含まれている場合に、前記変換データに基づいて、前記変換対象の文字を当該文字とは異なる文字に変換するデータ変換部とを有し、前記データ入力部は、前記入力データ抽出部によって抽出された分割テキストデータについて前記データ変換部によって変換された後の分割テキストデータを入力項目に対して記述する。 Further, the present invention is, in the above-described voice input device, a conversion data storage unit that stores conversion data corresponding to the input item, and the conversion data in at least a part of the divided text data extracted by the input data extraction unit. A data conversion unit that converts the conversion target character into a character different from the character based on the conversion data when the conversion target character stored in the storage unit is included, The input unit describes, for an input item, the divided text data after the divided text data extracted by the input data extraction unit has been converted by the data conversion unit.
また、本発明は、コンピュータにおける音声入力方法であって、音声認識部が、集音された音声に応じた音声信号からテキストデータを生成し、入力データ抽出部が、前記テキストデータに含まれるキーワードを複数検出し、検出されたキーワードのうち、第1キーワードと第2キーワードの間のテキストデータを前記第1キーワードに対する分割テキストデータとして抽出し、前記第2キーワードの後段のテキストデータの少なくとも一部から第2キーワードに対する分割テキストデータとして抽出し、前記入力データ抽出部は、分割キーワードから検出されたキーワードに、入力項目に対する分割テキストデータの候補である単語と、前記入力項目を構成する複数の小項目のうち少なくとも1つとを対応づけて記憶する辞書データ記憶部に記憶された単語がある場合に、当該キーワードのすぐ後ろ側にある文字列を、前記テキストデータに小項目の名称が含まれていなくても小項目に分割する対象の文字列であると特定し、データ入力部が、入力操作に応じてテキストデータを入力可能な入力欄を複数含んだ入力対象データが表示される表示画面における入力欄に対し、前記入力欄に入力する対象となるテキストデータを、前記入力データ抽出部によって得られた分割テキストデータから取得して、対応する前記入力欄にそれぞれ入力し、前記データ入力部は、前記表示画面に表示された小項目の名称のうち前記単語に対応する小項目の名称に対して対応関係にある入力欄に、前記小項目に分割する対象の文字列であると特定された文字列に基づいて得られる単語を記述する。 Further, the present invention is a voice input method in a computer, wherein the voice recognition unit generates text data from a voice signal corresponding to the collected voice, and the input data extraction unit is a keyword included in the text data. Of the detected keywords, the text data between the first keyword and the second keyword is extracted as the divided text data for the first keyword, and at least a part of the text data of the latter stage of the second keyword is detected. From the divided keywords to the second keyword, and the input data extracting unit extracts, in the keyword detected from the divided keywords, a word that is a candidate for the divided text data for the input item and a plurality of small words that form the input item. When there is a word stored in the dictionary data storage unit that stores at least one of the items in association with each other, a character string immediately behind the relevant keyword is used, and the text data includes the name of the small item. Even if it is not specified, it is specified as the target character string to be divided into small items, and the data input part displays the input target data that includes multiple input fields that can input text data according to the input operation. the input field, text data for input to the input field, is obtained from divide text data obtained by the input data extraction unit, and input to the corresponding said input field, the data input unit Is specified as a character string to be divided into the sub-items in the input field corresponding to the name of the sub-item corresponding to the word among the names of the sub-items displayed on the display screen. Describe the word obtained based on the character string .
以上説明したように、この発明によれば、複数の入力項目に対して音声入力を行なう場合における操作入力にかかる手間を増大させないようにして音声入力を行なうことができる。 As described above, according to the present invention, voice input can be performed without increasing the time and effort required for operation input when voice input is performed for a plurality of input items.
以下、本発明の一実施形態による音声入力装置について図面を参照して説明する。
図1は、この発明の一実施形態による音声入力装置を適用した携帯端末の構成を示す概略ブロック図である。携帯端末1は、音声信号生成部11、音声認識部12、辞書データ記憶部13、変換データ記憶部14、入力データ抽出部15、データ変換部16、データ入力部17、表示部18、操作入力部19を有する。
Hereinafter, a voice input device according to an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram showing the configuration of a mobile terminal to which a voice input device according to an embodiment of the present invention is applied. The mobile terminal 1 includes a voice
音声信号生成部11は、音声を集音して音声信号を生成する。例えば、音声信号生成部11は、マイクロフォンが用いられる。音声認識部12は、音声信号生成部11が生成した音声信号からテキストデータを生成する。
The
辞書データ記憶部13は、入力項目に対する入力データの候補である単語と、入力項目を構成する複数の小項目のうち少なくとも1つとを対応づけて記憶する。ここで、入力データは、テキストデータの少なくとも一部のデータであり、入力項目の入力欄に対して入力することが可能なデータである。また、入力項目は、複数の小項目を含む場合がある。例えば、入力項目が「住所」である場合には、小項目として、「都道府県」、「市区町村」、「番地」、「建物名」(あるいは「番地など」)などがあり、この複数の小項目から1つの入力項目が構成される。入力データの候補となる単語としては、例えば、「都道府県」であれば、「東京都」、「大阪府」、「北海道」、「埼玉県」等、都道府県として存在しうる名称が記憶される。
The dictionary
変換データ記憶部14は、入力項目に対応した変換データを記憶する。ここでは、テキストデータが表す文字をそのまま入力データとして適用することもできるが、入力項目においては、一般的な発話内容と一般的な記述内容が異なる場合がある。例えば、電話番号の市外局番とエリアコード、エリアコードと加入者番号の間は、発話する場合、「03の0000の0000」のように「の」として発話するが、電話番号を文字列にて記述する場合には、「03−0000−0000」のように、「−」(ハイフン)が用いられる。このように、発話内容と記述する際の文字列とが異なる場合であっても、記述する際の文字列を意識することなく発話しても、記述方法に沿った文字列に変換することが可能となる。
The conversion
入力データ抽出部15は、テキストデータに含まれるキーワードを複数検出し、検出されたキーワードのうち、第1キーワードと第2キーワードの間のテキストデータを第1キーワードに対する入力データ(分割テキストデータ)として抽出し、第2キーワードの後段のテキストデータの少なくとも一部から第2キーワードに対する入力データ(分割テキストデータ)として抽出する。このようにキーワードに基づくことで、複数の入力項目のうち、どの入力項目に入力すべき文字列であるかを区切って識別することができる。詳細は後述する。
データ変換部16は、入力データ抽出部によって抽出された入力データの少なくとも一部に変換データ記憶部に記憶された変換対象の文字が含まれている場合に、変換データに基づいて、変換対象の文字を当該文字とは異なる文字に変換する。
The input
When at least a part of the input data extracted by the input data extraction unit includes the conversion target character stored in the conversion data storage unit, the data conversion unit 16 determines the conversion target character based on the conversion data. Converts a character to a different character.
データ入力部17は、入力操作に応じてテキストデータを入力可能な入力欄を複数含んだ入力対象データが表示される表示画面における入力欄に対し、前記入力欄に入力する対象となるテキストデータを、前記音声認識部によって生成されたテキストデータを分割して得られる分割テキストデータから取得して、対応する前記入力欄にそれぞれ入力することで記述する。また、データ入力部17は、入力データ抽出部15によって抽出された入力データに辞書データ記憶部14に記憶された単語がある場合に、単語に対応する小項目に対して当該単語を記述する。また、データ入力部17は、入力データ抽出部15によって抽出された入力データについてデータ変換部16によって変換された後のテキストデータを入力項目に対して記述する。
The
表示部18は、例えば液晶パネル等であり、各種情報を表示する。操作入力部19は、タッチセンサであり、検出領域内のどの位置がタッチされたかを検出する。表示部18と操作入力部19は、タッチパネルを用いることができる。制御部20は、端末装置1内の各部を制御する。
The
図2は、携帯端末1における入力対象の入力画面の一例を示す図である。
入力画面は、例えば、入力項目とその入力項目に対応した入力欄との組が複数含まれる入力画面であればよく、例えば、各種サービス(銀行口座開設、ローン、旅行、クレジットカード作成など)の申込データ、見積書等の作成を依頼する作成依頼データ、ネットショッピングにおける商品の配達先を登録する宛先データ等がある。この入力画面において、入力項目として、「氏名」(符号100)、「住所」(符号110)、「電話番号」(符号120)、「会社名」(符号130)がある。入力項目「住所」については、さらに複数の入力項目が小項目として含まれており、ここでは、「都道府県」(符号111)、「市町村」(符号112)、「番地など」(符号113)の小項目がある。そして、これら入力項目、あるいは小項目には、入力欄(符号140)がそれぞれ並べられている。また、入力画面の一部(ここでは、画面右上)には、音声入力を行なう機能のオンオフを切替える音声入力ボタン(符号200)が設けられている。
FIG. 2 is a diagram showing an example of an input screen of an input target on the mobile terminal 1.
The input screen may be, for example, an input screen that includes a plurality of pairs of input items and input fields corresponding to the input items. For example, various services (bank account opening, loan, travel, credit card creation, etc.) There are application data, creation request data for requesting the creation of a quotation, and destination data for registering the delivery destinations of products in online shopping. On this input screen, there are "name" (reference numeral 100), "address" (reference numeral 110), "phone number" (reference numeral 120), and "company name" (reference numeral 130) as input items. The input item "address" further includes a plurality of input items as small items. Here, "prefecture" (reference numeral 111), "municipalities" (reference numeral 112), "address etc." (reference numeral 113). There is a small item. An input field (reference numeral 140) is arranged in each of these input items or small items. Further, a voice input button (reference numeral 200) for switching on and off of a function for performing voice input is provided on a part of the input screen (here, the upper right of the screen).
次に、上述した携帯端末1の動作について図3、図4、図5を用いて説明する。図3は、携帯端末1の動作を説明するフローチャート、図4は、入力項目に対する入力データを得る処理を説明する概念図、図5は、入力項目に対する文字列の入力が行なわれた後の状態を表す画面例を示す図である。
まず、携帯端末1の制御部20は、ユーザからの操作入力に基づいて、入力対象となる申込データ(例えば、図2)を表示部18の画面に表示する。制御部20は、表示部18に表示された画面に対してタッチ入力されたか否かを検出する(ステップS101)。タッチ入力されていない場合には(ステップS101−NO)、一定時間ウエイトし(ステップS102)、ステップS101に移行する。
Next, the operation of the above-described mobile terminal 1 will be described with reference to FIGS. 3, 4, and 5. 3 is a flow chart for explaining the operation of the mobile terminal 1, FIG. 4 is a conceptual diagram for explaining a process for obtaining input data for an input item, and FIG. 5 is a state after a character string is input for the input item. It is a figure which shows the example of a screen showing.
First, the
一方、タッチ入力された場合、制御部20は、音声入力をオンにする指示であるか否かを判定する(ステップS103)。音声入力をオンにする指示であるか否かは、音声入力ボタン(図2符号200)をタッチする操作入力であるか否かを基に判断することができる。音声入力をオンにする指示ではない場合(ステップS103−NO)、例えば、入力対象項目をタッチして、タッチパネル上の操作ボタンをタッチすることで文字入力された場合には、タッチ入力による文字列の入力処理を行なう(ステップS104)。
On the other hand, when the touch input is performed, the
一方、音声入力をオンにする操作である場合、制御部20は、音声入力処理を開始する。音声入力処理が開始されると、音声信号生成部11は、ユーザによって発話される音声を取得し、得られた音声に対応する音声信号を生成する(ステップS105)。音声信号が生成されると、音声認識部12は、音声信号に基づいて音声認識処理を行なうことで、音声信号に対応するテキストデータを生成する(ステップS106)。例えば、ここで得られるテキストデータは、「氏名は山田太郎 住所は東京都港区1の1の1 電話番号は03の0000の0000 会社名は特許株式会社」(図4、符号300)である。
On the other hand, when the operation is to turn on the voice input, the
テキストデータが生成されると、入力データ抽出部15は、テキストデータに含まれるキーワードを検出する(ステップS107)。ここで検出するキーワードは、入力項目の名称に対応する文字列であり、例えば、「氏名」(図4符号400)、「住所」(図4符号402)、「電話番号」(図4符号404)、「会社名」(図4符号406)である。そして、入力データ抽出部15は、検出された複数のキーワードを基に、キーワードとキーワードの間にある文字列を特定するとともに、最終キーワードの後段の文字列を特定する(ステップS108)。ここで、最終キーワードとは、得られたテキストデータの最も文末側にあるキーワードであり、ここでは、「会社名」である。そして、このステップS108において、キーワードとキーワードの間にある文字列として特定される文字列は、例えば、「は山田太郎」、「は東京都港区1の1の1」、「は03の0000の0000」であり、最終キーワードの後段にある文字列として特定される文字列は、「は特許株式会社」である。そして特定された文字列の先頭に所定の文字(例えば、「は」)がある場合には、特定された文字列から除外し、「山田太郎」(図4符号401)、「東京都港区1の1の1」(図4符号403)、「03の0000の0000」(図4符号405)、「特許株式会社」(図4符号407)の文字列を特定された文字列として得る。
When the text data is generated, the input
次に、入力データ抽出部15は、小項目がある入力項目に対する文字列について、小項目に対応するように分割する(ステップS109)。小項目がある入力項目であるか否かについて、入力データ抽出部15は、予め携帯端末1の所定のメモリ領域内に入力項目名を登録しておき、ステップS107において検出されたキーワードに、メモリ領域に登録された入力項目名に対応するキーワードがあるか否かを判定し、対応するキーワードがある場合には、そのキーワードの直ぐ後ろ側にある文字列を小項目に分割する対象の文字列であるとして特定する。そして、入力データ抽出部15は、辞書データ記憶部13を参照し、特定された文字列の中に、辞書データ記憶部13に登録された文字列が含まれているか否かを判定する。例えば、この辞書データ記憶部13には、入力項目「住所」に対応づけて、住所の候補として、都道府県(例えば、「東京都」、「神奈川県」、「大阪府」等の47都道府県の名称)、市区町村の名称(例えば、「港区」、「千代田区」、「青葉区」、「中央区」等の47都道府県に存在しうる市区町村の名称)の文字列のデータが記憶されている。入力データ抽出部15は、「住所」の後段の文字列である「東京都港区1の1の1」のうち、辞書データ記憶部13に記憶された文字列「東京都」と「港区」とがそれぞれ小項目に対応する文字列として特定し、残りの「1の1の1」についても、小項目に対応する文字列として特定し、もとの文字列「東京都港区1の1の1」を分割して、「東京都」と「港区」と「1の1の1」との3つの文字列を得る。
Next, the input
次に、入力データ抽出部15は、変換データ記憶部14を参照し、特定された文字列のそれぞれについて、変換対象の文字について、別の文字に変換する(ステップS110)。ここで、変換データ記憶部14は、入力項目「住所」の小項目「番地など」に対応する文字列を対象として、「の」の文字がある場合には、変換後の文字が「−」(ハイフン)であることが記憶され、入力項目「電話番号」に対応する文字列を対象として、「の」の文字がある場合には、変換後の文字が「−」(ハイフン)であることを記憶している。入力データ抽出部15は、この変換データ記憶部14を参照し、文字列に変換対象の文字がある場合には、文字の変換を行なう。例えば、「1の1の1」の文字列は、「1−1−1」に変換され、「03の0000の0000」の文字列は、「03−0000−0000」に変換される。
Next, the input
次に、データ入力部17は、入力データ抽出部15によって得られた文字列について、対応する入力項目の入力欄に、キーワードを基に記述する(ステップS111)。
ここでは、データ入力部17は、例えば、キーワード「氏名」とキーワード「住所」の間にある文字列「山田太郎」を、入力項目「氏名」に対する入力データであると特定し、「氏名」に対応する入力欄に記述する。以下同様に、データ入力部17は、キーワード「住所」とキーワード「電話番号」の間にある文字列については、ステップS109において分割されており、この分割された文字列を対応する小項目の入力欄に記述する。ここでは、小項目「都道府県」に文字列「東京都」、小項目「市区町村」に「港区」が記述され、「番地など」については、ステップS110において変換された後の文字列「1−1−1」が記述される。また、データ入力部17は、キーワード「電話番号」とキーワード「会社名」の間にある文字列であって、ステップS110において変換された後の文字列「03−0000−0000」を、入力項目「電話番号」に対する入力データであると特定し、「電話番号」に対応する入力欄に記述する。そして、データ入力部17は、最終キーワード「会社名」の後段にある文字列「特許株式会社」を、入力項目「会社名」に対する入力データであると特定し、「会社名」に対応する入力欄に記述する。このようにして入力項目の入力欄に対する文字列の記述が行なわれると、図5に示すように、各入力欄に、音声入力された情報に基づく文字列が記述される。この記述がなれた後に、送信ボタン(符号500)がタッチ入力された場合、携帯端末1は、申込データの送信先のサーバ装置に対して、入力項目に対する入力データを送信する。
Next, the
Here, for example, the
以上説明した実施形態において、図5に示す音声入力が行なわれた後の画面において、記述された文字列について、修正したい文字列がある場合には、その修正対象の入力欄をタッチ操作することで、その入力欄に対し、音声入力あるいは、タッチ操作による文字列の入力を行ない、文字列の修正を行なうことができる。 In the embodiment described above, if there is a character string to be corrected in the described character string on the screen after the voice input shown in FIG. 5, touch the input field of the correction target. Then, the character string can be corrected by inputting a voice or a character string by a touch operation to the input field.
また、上述の実施形態において、ステップS103において、音声入力ボタンがタッチされた時点から音声入力処理が開始される場合について説明したが、音声入力処理の終了タイミングとしては、再度音声入力ボタンがタッチされるまで、音声入力ボタンがタッチされてから所定の時間が経過するまで、あるいは、タッチされた指が音声入力ボタンから離れるまで、のいずれのタイミングであってもよい。 Further, in the above-described embodiment, the case where the voice input process is started from the time when the voice input button is touched in step S103 has been described. However, as the end timing of the voice input process, the voice input button is touched again. Until a predetermined time elapses after the voice input button is touched, or until the touched finger is separated from the voice input button.
また、上述の実施形態において、申込データの入力画面において1つの音声入力ボタンを設ける場合について説明したが、入力項目よりも少ない数の範囲であれば、音声入力ボタンを複数設けるようにしてもよい。例えば、氏名と住所を対象として音声入力するための音声入力ボタンと、電話番号と会社名とを対象として音声入力するための音声入力ボタンとを設けるようにしてもよい。 Further, in the above-described embodiment, the case where one voice input button is provided on the application data input screen has been described, but a plurality of voice input buttons may be provided as long as the number is smaller than the number of input items. .. For example, a voice input button for voice inputting a name and an address and a voice input button for voice inputting a telephone number and a company name may be provided.
また、上述した実施形態において、ステップS108の文字列を特定する処理において、特定された文字列の先頭に所定の文字(例えば、「は」)がある場合に、特定された文字列から除外するようにしたが、「が」を除外対象の文字として予め登録しておき、「氏名が山田太郎・・・」等のテキストデータから「が山田太郎」の文字列が得られた場合には、文字列の先頭の所定の文字として「が」を除外するようにしてもよい。 Further, in the above-described embodiment, in the process of identifying a character string in step S108, if a specified character (for example, “ha”) is present at the beginning of the identified character string, it is excluded from the identified character string. However, when "ga" is registered in advance as a character to be excluded and a character string "ga Yamada Taro" is obtained from text data such as "Name is Taro Yamada...", “Ga” may be excluded as the predetermined character at the beginning of the character string.
また、上述の実施形態においては、本発明に係る音声入力処理を携帯端末1において適用する場合について説明したが、スマートフォン、PC(パーソナルコンピュータ)において適用するようにしてもよい。また、音声入力を端末装置において行ない、得られた音声データまたはテキストデータをサーバ装置に送信し、本発明に係る音声入力処理をそのサーバ装置において行ない、入力欄に記述された後の結果を端末装置に送信するようにしてもよい。また、例えば、携帯端末1における機能のうち、音声認識部12、辞書データ記憶部13、変換データ記憶部14の機能をサーバ装置において行なうようにしてもよい。
Moreover, although the case where the voice input process according to the present invention is applied to the mobile terminal 1 has been described in the above-described embodiment, it may be applied to a smartphone or a PC (personal computer). Also, voice input is performed in the terminal device, the obtained voice data or text data is transmitted to the server device, the voice input processing according to the present invention is performed in the server device, and the result after being described in the input field is displayed in the terminal. It may be transmitted to the device. Further, for example, among the functions of the mobile terminal 1, the functions of the
上述した実施形態における音声信号生成部11、音声認識部12、辞書データ記憶部13、変換データ記憶部14、入力データ抽出部15、データ変換部16、データ入力部17の機能をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
The functions of the voice
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail above with reference to the drawings, the specific configuration is not limited to this embodiment, and includes a design and the like within a range not departing from the gist of the present invention.
1…携帯端末
11…音声信号生成部
12…音声認識部
13…辞書データ記憶部
14…変換データ記憶部
15…入力データ抽出部
16…データ変換部
17…データ入力部
18…表示部
19…操作入力部
DESCRIPTION OF SYMBOLS 1... Mobile terminal 11... Voice
Claims (3)
前記テキストデータに含まれるキーワードを複数検出し、検出されたキーワードのうち、第1キーワードと第2キーワードの間のテキストデータを前記第1キーワードに対する分割テキストデータとして抽出し、前記第2キーワードの後段のテキストデータの少なくとも一部から第2キーワードに対する分割テキストデータとして抽出する入力データ抽出部と、
入力項目に対する分割テキストデータの候補である単語と、前記入力項目を構成する複数の小項目のうち少なくとも1つとを対応づけて記憶する辞書データ記憶部と、
入力操作に応じてテキストデータを入力可能な入力欄を複数含んだ入力対象データが表示される表示画面における入力欄に対し、前記入力欄に入力する対象となるテキストデータを、前記入力データ抽出部によって得られた分割テキストデータから取得して、対応する前記入力欄にそれぞれ入力するデータ入力部と、を有し、
前記入力データ抽出部は、分割キーワードから検出されたキーワードに前記辞書データ記憶部に記憶された単語がある場合に、当該キーワードのすぐ後ろ側にある文字列を、前記テキストデータに小項目の名称が含まれていなくても小項目に分割する対象の文字列であると特定し、
前記データ入力部は、前記表示画面に表示された小項目の名称のうち前記単語に対応する小項目の名称に対して対応関係にある入力欄に、前記小項目に分割する対象の文字列であると特定された文字列に基づいて得られる単語を記述する
音声入力装置。 A voice recognition unit that generates text data from a voice signal corresponding to the collected voice,
A plurality of keywords included in the text data is detected, and among the detected keywords, text data between a first keyword and a second keyword is extracted as divided text data for the first keyword. An input data extraction unit that extracts, as at least a part of the text data of, as divided text data for the second keyword,
A dictionary data storage unit that stores a word that is a candidate for segmented text data for an input item and at least one of a plurality of small items that form the input item in association with each other;
With respect to the input field on the display screen on which the input target data including a plurality of input fields in which the text data can be input according to the input operation is displayed, the text data to be input in the input field is input to the input data extraction unit acquired from divide text data obtained by having a data input unit for inputting to the corresponding said input field, a,
When the keyword detected from the divided keywords has a word stored in the dictionary data storage unit, the input data extraction unit assigns a character string immediately behind the keyword to the name of a small item in the text data. Even if it does not include, specify that it is a character string to be divided into small items,
The data input unit, in the input field having a correspondence relationship with the name of the sub-item corresponding to the word among the names of the sub-items displayed on the display screen, the character string to be divided into the sub-items. A voice input device that describes a word obtained based on a specified character string .
前記入力データ抽出部によって抽出された分割テキストデータの少なくとも一部に前記変換データ記憶部に記憶された変換対象の文字が含まれている場合に、前記変換データに基づいて、前記変換対象の文字を当該文字とは異なる文字に変換するデータ変換部と
を有し、
前記データ入力部は、前記入力データ抽出部によって抽出された分割テキストデータについて前記データ変換部によって変換された後の分割テキストデータを入力項目に対して記述する
請求項1に記載の音声入力装置。 A conversion data storage unit that stores conversion data corresponding to the input item;
If at least a part of the divided text data extracted by the input data extraction unit includes a conversion target character stored in the conversion data storage unit, the conversion target character is based on the conversion data. And a data conversion unit that converts the character into a character different from the character,
The voice input device according to claim 1, wherein the data input unit describes, for an input item, the divided text data after the divided text data extracted by the input data extraction unit has been converted by the data conversion unit.
音声認識部が、集音された音声に応じた音声信号からテキストデータを生成し、
入力データ抽出部が、前記テキストデータに含まれるキーワードを複数検出し、検出されたキーワードのうち、第1キーワードと第2キーワードの間のテキストデータを前記第1キーワードに対する分割テキストデータとして抽出し、前記第2キーワードの後段のテキストデータの少なくとも一部から第2キーワードに対する分割テキストデータとして抽出し、
前記入力データ抽出部は、分割キーワードから検出されたキーワードに、入力項目に対する分割テキストデータの候補である単語と、前記入力項目を構成する複数の小項目のうち少なくとも1つとを対応づけて記憶する辞書データ記憶部に記憶された単語がある場合に、当該キーワードのすぐ後ろ側にある文字列を、前記テキストデータに小項目の名称が含まれていなくても小項目に分割する対象の文字列であると特定し、
データ入力部が、入力操作に応じてテキストデータを入力可能な入力欄を複数含んだ入力対象データが表示される表示画面における入力欄に対し、前記入力欄に入力する対象となるテキストデータを、前記入力データ抽出部によって得られた分割テキストデータから取得して、対応する前記入力欄にそれぞれ入力し、
前記データ入力部は、前記表示画面に表示された小項目の名称のうち前記単語に対応する小項目の名称に対して対応関係にある入力欄に、前記小項目に分割する対象の文字列であると特定された文字列に基づいて得られる単語を記述する
音声入力方法。 A voice input method in a computer,
The voice recognition unit generates text data from a voice signal corresponding to the collected voice,
The input data extraction unit detects a plurality of keywords included in the text data, and of the detected keywords, extracts text data between a first keyword and a second keyword as divided text data for the first keyword, Extracted as segmented text data for the second keyword from at least a part of the text data in the latter stage of the second keyword,
The input data extraction unit stores the keyword detected from the split keyword in association with a word that is a candidate for the split text data for the input item and at least one of a plurality of small items that form the input item. When there is a word stored in the dictionary data storage unit, the character string immediately after the keyword is to be divided into sub-items even if the text data does not include the name of the sub-item. Is identified as
The data input unit, for the input field in the display screen on which the input target data including a plurality of input fields in which the text data can be input according to the input operation is displayed, the text data to be input in the input field, acquired from divide text data obtained by the input data extraction unit, and input to the corresponding said input field,
The data input unit, in the input field having a correspondence relationship with the name of the sub-item corresponding to the word among the names of the sub-items displayed on the display screen, the character string to be divided into the sub-items. A voice input method that describes a word obtained based on a specified character string .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016210651A JP6712940B2 (en) | 2016-10-27 | 2016-10-27 | Voice input device, voice input method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016210651A JP6712940B2 (en) | 2016-10-27 | 2016-10-27 | Voice input device, voice input method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072508A JP2018072508A (en) | 2018-05-10 |
JP6712940B2 true JP6712940B2 (en) | 2020-06-24 |
Family
ID=62115319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016210651A Active JP6712940B2 (en) | 2016-10-27 | 2016-10-27 | Voice input device, voice input method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6712940B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210016739A (en) | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | Electronic device and input method of the same |
KR20220013732A (en) * | 2020-07-27 | 2022-02-04 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
JP7383667B2 (en) | 2021-07-16 | 2023-11-20 | 株式会社東芝 | Information processing device, method and program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11120269A (en) * | 1997-10-20 | 1999-04-30 | Pca Kk | Voice input accounting system and medium voice input accounting program is stored |
JP3139679B2 (en) * | 1999-01-19 | 2001-03-05 | 日本電気株式会社 | Voice input device and voice input method |
JP3964724B2 (en) * | 2002-04-22 | 2007-08-22 | 東芝テック株式会社 | Voice input device and method, and voice input program |
JP2006078829A (en) * | 2004-09-10 | 2006-03-23 | Chugoku Electric Power Co Inc:The | Speech recognition device and speech recognition method |
JP4012228B2 (en) * | 2005-11-28 | 2007-11-21 | キヤノン株式会社 | Information input method, information input device, and storage medium |
JP5754177B2 (en) * | 2011-03-03 | 2015-07-29 | 日本電気株式会社 | Speech recognition apparatus, speech recognition system, speech recognition method and program |
JP2016102920A (en) * | 2014-11-28 | 2016-06-02 | 京セラドキュメントソリューションズ株式会社 | Document record system and document record program |
-
2016
- 2016-10-27 JP JP2016210651A patent/JP6712940B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018072508A (en) | 2018-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10657966B2 (en) | Better resolution when referencing to concepts | |
CN110223695B (en) | Task creation method and mobile terminal | |
US8370143B1 (en) | Selectively processing user input | |
TWI437449B (en) | Multi-mode input method and input method editor system | |
TWI510965B (en) | Input method editor integration | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
JP2016529603A (en) | Online speech translation method and apparatus | |
US11736587B2 (en) | System and method for integrating message content into a target data processing device | |
US20110316796A1 (en) | Information Search Apparatus and Information Search Method | |
JP2018040906A (en) | Dictionary update device and program | |
JP2015510176A (en) | Input processing method and apparatus | |
US10073828B2 (en) | Updating language databases using crowd-sourced input | |
JP6712940B2 (en) | Voice input device, voice input method | |
US10049108B2 (en) | Identification and translation of idioms | |
US20140214400A1 (en) | Automatic language recognition | |
KR20200092446A (en) | Method and system for machine translation capable of style transfer | |
US20210124803A1 (en) | User-customized computer-automated translation | |
JP5231484B2 (en) | Voice recognition apparatus, voice recognition method, program, and information processing apparatus for distributing program | |
US20150127326A1 (en) | System for adapting speech recognition vocabulary | |
WO2016155643A1 (en) | Input-based candidate word display method and device | |
CN107797676A (en) | A kind of input method of the single character and device | |
US11868678B2 (en) | User interface sound emanation activity classification | |
Abbott et al. | Identifying an aurally distinct phrase set for text entry techniques | |
US10055401B2 (en) | Identification and processing of idioms in an electronic environment | |
WO2018054127A1 (en) | Handwriting input method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181019 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200602 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6712940 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |