JP2017211430A - Information processing device and information processing method - Google Patents
Information processing device and information processing method Download PDFInfo
- Publication number
- JP2017211430A JP2017211430A JP2016102755A JP2016102755A JP2017211430A JP 2017211430 A JP2017211430 A JP 2017211430A JP 2016102755 A JP2016102755 A JP 2016102755A JP 2016102755 A JP2016102755 A JP 2016102755A JP 2017211430 A JP2017211430 A JP 2017211430A
- Authority
- JP
- Japan
- Prior art keywords
- information
- calibration
- proofreading
- information processing
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 69
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 55
- 230000001915 proofreading effect Effects 0.000 claims description 91
- 238000004458 analytical method Methods 0.000 claims description 77
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 abstract description 13
- 238000004891 communication Methods 0.000 description 19
- 238000003384 imaging method Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本開示は、情報処理装置および情報処理方法に関する。 The present disclosure relates to an information processing apparatus and an information processing method.
近年、音声によるコマンド入力の技術が発達してきている。音声によるコマンド入力では、例えば音声認識システムにより、ユーザ発話をテキスト認識し、認識したテキストの構文解析を行い、解析結果に従ってコマンドが実行される。このような音声認識システムに関し、例えば下記特許文献1には、音声認識結果をコンテキスト情報を用いて修正する音声認識修正方法が記載されている。コンテキスト情報には、ユーザ入力の履歴や会話履歴が含まれている。
In recent years, voice command input technology has been developed. In voice command input, for example, a speech recognition system recognizes a user utterance as text, performs syntax analysis of the recognized text, and executes a command according to the analysis result. Regarding such a speech recognition system, for example,
しかしながら、音声により文字入力を行っている場合、文字の削除や訂正、入力する文字の種類の切り替え等は物理的な文字入力インターフェースからの操作が必要であったり、削除や訂正等を音声で行うと音声認識結果としてそのまま文字入力されてしまったりする。 However, when characters are input by voice, deletion or correction of characters, switching of the type of characters to be input, etc. require operation from a physical character input interface, or deletion or correction is performed by voice. And the text is input as it is as a voice recognition result.
そこで、本開示では、音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提案する。 Therefore, the present disclosure proposes an information processing apparatus and an information processing method capable of realizing sentence proofreading by voice input.
本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置を提案する。 According to the present disclosure, an information processing apparatus is provided that includes: a transmission unit that transmits audio information including a sentence calibration command and a calibration target; and a reception unit that receives a processing result based on the calibration command and the calibration target. .
本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、を備える、情報処理装置を提案する。 According to the present disclosure, an information processing apparatus is provided that includes a receiving unit that receives audio information including a sentence correction command and a correction target, and a transmission unit that transmits a processing result based on the correction command and the correction target. .
本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を送信することと、前記校正指令と校正ターゲットに基づく解析結果を受信することと、を含む、情報処理方法を提案する。 According to the present disclosure, a processor proposes an information processing method including: transmitting a voice information including a sentence proofreading instruction and a proofreading target; and receiving an analysis result based on the proofreading instruction and the proofreading target. To do.
本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を受信することと、前記校正指令と校正ターゲットに基づく解析結果を送信することと、を含む、情報処理方法を提案する。 According to the present disclosure, a processor proposes an information processing method including receiving audio information including a sentence proofreading instruction and a proofreading target, and transmitting an analysis result based on the proofreading instruction and the proofreading target. To do.
以上説明したように本開示によれば、音声入力による文章校正を実現することが可能となる。 As described above, according to the present disclosure, it is possible to realize sentence proofreading by voice input.
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。 Note that the above effects are not necessarily limited, and any of the effects shown in the present specification, or other effects that can be grasped from the present specification, together with or in place of the above effects. May be played.
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Hereinafter, preferred embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による情報処理システムの概要
2.構成
2−1.クライアント端末の構成
2−2.サーバの構成
3.動作処理
4.他のシステム構成
5.まとめ
The description will be made in the following order.
1. 1. Overview of information processing system according to an embodiment of the present disclosure Configuration 2-1. Configuration of client terminal 2-2. 2. Server configuration Operation processing 4. Other system configuration Summary
<<1.本開示の一実施形態による情報処理システムの概要>>
まず、本開示の一実施形態による情報処理システムの概要について説明する。図1は、本実施形態による情報処理システムの概要を説明する図である。図1に示すように、本実施形態による情報処理システムは、クライアント端末1とサーバ2を含む。クライアント端末1とサーバ2は、例えばネットワーク3を介して接続され、データの送受信を行う。
<< 1. Overview of Information Processing System According to One Embodiment of Present Disclosure >>
First, an overview of an information processing system according to an embodiment of the present disclosure will be described. FIG. 1 is a diagram for explaining the outline of the information processing system according to this embodiment. As shown in FIG. 1, the information processing system according to the present embodiment includes a
本実施形態による情報処理システムは、音声による文字入力を実現する音声認識システムであって、クライアント端末1で収音したユーザ発話の音声認識、テキスト解析を行い、解析結果としてテキストをクライアント端末1に出力する。
The information processing system according to the present embodiment is a speech recognition system that realizes character input by speech, and performs speech recognition and text analysis of user utterances collected by the
クライアント端末1は、例えばスマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末、パーソナルコンピュータ、ゲーム機、音楽プレイヤー等であってもよい。
The
ここで、既存の音声認識システムでは、文字の種類の切り替え(大文字、小文字、ローマ字、数字、平仮名、片仮名等の切り替え)を音声で行うことが困難であり、物理的な文字入力インターフェースからの操作が必要であった。また、入力した文章の校正を行う際、文章の削除や挿入、訂正等の入力を音声で行うと、音声認識結果としてそのまま文字入力されてしまうため、音声での校正が困難であった。 Here, in the existing speech recognition system, it is difficult to switch the character type (switching between uppercase, lowercase, Roman, numbers, hiragana, katakana, etc.) by voice, and operation from a physical character input interface is difficult. Was necessary. Further, when the input sentence is proofread, if the input of deletion, insertion, correction or the like of the sentence is made by voice, the character is inputted as it is as a voice recognition result, so that the proofreading by voice is difficult.
また、漢字には同音異義語があるため、一度の変換では目的の漢字が出てこなかったり、ユーザが望む漢字が出せないため物理的な文字入力インターフェースへ切り替えたりしなければならなかった。 In addition, because kanji has homonyms, the target kanji cannot be obtained with a single conversion, or the kanji desired by the user cannot be produced, so it has been necessary to switch to a physical character input interface.
そこで、本実施形態による情報処理システムは、音声入力による文章校正を実現し、校正の際に物理的な文字入力インターフェースへ切り替えるといった煩雑な操作を不要にする。具体的には、本実施形態による情報処理システムは、ユーザ発話のテキスト解析において校正発話か通常発話かの判断を行い、校正発話だった場合の校正情報を分析する。 Therefore, the information processing system according to the present embodiment realizes sentence proofreading by voice input and eliminates a complicated operation such as switching to a physical character input interface at the time of proofreading. Specifically, the information processing system according to the present embodiment determines whether the utterance is a proof utterance or a normal utterance in the text analysis of the user utterance, and analyzes the proofreading information in the case of the proof utterance.
以上、本実施形態による情報処理システムの概要について説明した。続いて、本実施形態による情報処理システムに含まれる各装置の構成について図2〜図3を参照して説明する。 The overview of the information processing system according to the present embodiment has been described above. Next, the configuration of each device included in the information processing system according to the present embodiment will be described with reference to FIGS.
<<2.構成>>
<2−1.クライアント端末の構成>
図2は、本実施形態によるクライアント端末1の構成の一例を示すブロック図である。図2に示すように、クライアント端末1(情報処理装置)は、制御部10、音声入力部11、撮像部12、センサ13、通信部14、表示部15、および記憶部16を有する。
<< 2. Configuration >>
<2-1. Configuration of client terminal>
FIG. 2 is a block diagram illustrating an example of the configuration of the
制御部10は、演算処理装置および制御装置として機能し、各種プログラムに従ってクライアント端末1内の動作全般を制御する。制御部10は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部10は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
The
制御部10は、音声入力部11から入力されたユーザ発話の音声を、通信部14からネットワーク3を介してサーバ2へ送信する。送信する音声情報の形態は、収音した音声データ(生データ)であってもよいし、収音した音声データから抽出した特徴量データ(音素列など、ある程度加工したもの)であってもよいし、収音した音声データのテキスト解析結果であってもよい。音声データのテキスト解析結果は、例えばユーザ発話の音声に含まれる校正指令部分と校正ターゲット部分を分析した結果である。かかる分析は、次に説明するローカルテキスト解析部102で行われ得る。なお、本明細書において、「校正指令」とは、校正ターゲットに対してどのような校正をすべきかを示すものであって、例えば削除、置換、追加等の入力された文字列の修正や、入力する文字種類の指定(アルファベット、大文字、小文字、平仮名、片仮名等)、入力する文字の表現指定(漢字、スペル等)が想定される。また、本明細書において、「校正ターゲット」とは、校正指令の対象となるものを示す。
The
また、制御部10は、ユーザ発話の際に撮像部12で撮像したユーザ動作の撮像画像やセンサ13で検知したセンサ情報(画面へのタッチ情報等)を、コンテキスト情報として、通信部14からネットワーク3を介してサーバ2へ送信する。送信するコンテキスト情報の形態は、取得した撮像画像やセンサ情報(生データ)であってもよいし、取得した撮像画像やセンサ情報から抽出した特徴量データ(ベクター化など、ある程度加工したもの)であってもよいし、取得した撮像画像やセンサ情報の解析結果(認識結果)であってもよい。撮像画像やセンサ情報の解析結果は、例えばユーザの動作や操作を認識した結果である。
Also, the
制御部10は、図2に示すように、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103としても機能し得る。
As shown in FIG. 2, the
ローカル音声認識部101は、音声入力部11から入力されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。本実施形態によるローカル音声認識部101は、後述するサーバ2の音声認識部201のサブセットであって、簡易の音声認識機能を有する。
The local
ローカルテキスト解析部102は、音声認識によりテキスト化された文字列を解析する。具体的には、ローカルテキスト解析部102は、記憶部16に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話(通常発話)であるか校正発話であるかを分析する。ローカルテキスト解析部102は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、ローカルテキスト解析部102は、複数の候補をスコアと共に出力してもよい。さらに、ローカルテキスト解析部102は、ユーザ発話の際に撮像部12で撮像した撮像画像や、その他センサ13により検知したセンサ情報(加速度センサ情報、タッチセンサ情報等)を考慮して分析してもよい。また、本実施形態によるローカルテキスト解析部102は、後述するサーバ2のテキスト解析部202のサブセットであって、簡易の解析機能を有する。具体的には、ローカルテキスト解析部102で用いる校正発話データの量がサーバ2で保有されているデータ量に比べて少ないため、例えば「削除」という校正用語は理解できるが、「消したい」「消して欲しいな」といった言葉は校正用語として理解できない。
The local
ローカル最終出力決定部103は、最終的に出力するものを決定する機能を有する。例えばローカル最終出力決定部103は、音声認識により抽出された特定のキーワード(例えば「校正モード」「切替」など)や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。通常発話と判断した場合、ローカル最終出力決定部103は、音声認識された文字列をそのまま表示部15の画面上に出力する。一方、校正発話と判断した場合、ローカル最終出力決定部103は、ローカルテキスト解析部102により分析された校正ターゲットと校正指令に基づいて、入力された文章の校正処理を行い、校正結果を表示部15の画面上に出力する。なお複数の解析結果がある場合、ローカル最終出力決定部103は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。
The local final
なお本実施形態によるローカル最終出力決定部103は、後述するサーバ2の最終出力決定部203のサブセットであって、簡易の決定機能を有するものである。
Note that the local final
以上、制御部10の機能構成について説明した。制御部10は、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103といったローカルのサブセットで処理を行うことで処理速度を早くすることができるが、本実施形態はこれに限定されない。例えば制御部10は、サブセットで十分な処理ができなかった場合やエラーが出た場合にはサーバ2にデータを送信して処理要求を行い、サーバ2から処理結果を受信して利用してもよい。または、制御部10は、サーバ2にデータを送信して処理要求を行うと共に、サブセットでも処理を行い、サーバ2からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。
The functional configuration of the
音声入力部11は、ユーザ音声や周辺の環境音を収音し、音声信号を制御部10に出力する。具体的には、音声入力部11は、マイクロホンおよびアンプ等により実現される。また、音声入力部11は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。
The voice input unit 11 collects user voice and surrounding environmental sounds, and outputs a voice signal to the
撮像部12は、ユーザの顔周辺や動作を撮像し、撮像画像を制御部10に出力する。撮像部12は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系と、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系と、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等とを有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
The
センサ13は、撮像部12(撮像センサ)以外の各種センサの総称であって、例えば加速度センサ、ジャイロセンサ、表示部15の画面上に設けられているタッチセンサ等が想定される。センサ13は、検知したセンサ情報を制御部10に出力する。
The
通信部14は、有線/無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部14は、例えば有線LAN(Local Area Network)、無線LAN、Wi−Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離/非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。
The
表示部15は、例えば液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置等により実現される。表示部15は、制御部10の制御に従って表示画面に情報を表示する。
The
記憶部16は、制御部10が各種処理を実行するためのプログラム等を記憶する。また、記憶部16は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。
The
以上、本実施形態によるクライアント端末1の構成について具体的に説明した。なお本実施形態によるクライアント端末1の構成は、図2に示す例に限定されない。例えばクライアント端末1は、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103の全てまたは一部を有さない構成であってもよい。
The configuration of the
また、本実施形態ではクライアント端末1とサーバ2を含む情報処理システムとして説明しているが、図2〜図3を参照して説明する各構成をクライアントモジュールおよびサーバモジュールとして有する単体の情報処理装置により実現されてもよい。若しくは、クライアント端末1の構成を、図3を参照して説明するサーバ2の制御部20の各構成(音声認識部201、テキスト解析部202、最終出力決定部203)と同様の機能を有するものとしてもよい。
In the present embodiment, the information processing system including the
<2−2.サーバの構成>
図3は、本実施形態によるサーバ2の構成の一例を示すブロック図である。図3に示すように、サーバ2(情報処理装置)は、制御部20、通信部21、および校正発話DB(データベース)22を有する。
<2-2. Server configuration>
FIG. 3 is a block diagram illustrating an example of the configuration of the
制御部20は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ2内の動作全般を制御する。制御部20は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部20は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
The
制御部20は、クライアント端末1から受信したユーザ発話の音声に基づいて音声認識処理、テキスト解析処理、および最終出力決定処理を行い、処理結果(音声認識結果、テキスト解析結果、または校正情報(例えば校正結果))をクライアント端末1に送信するよう制御する。
The
制御部20は、図3に示すように、音声認識部201、テキスト解析部202、および最終出力決定部203としても機能し得る。
As illustrated in FIG. 3, the
音声認識部201は、クライアント端末1から送信されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。
The
テキスト解析部202は、音声認識によりテキスト化された文字列を解析する。具体的には、テキスト解析部202は、校正発話DB22に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話(通常発話)であるか校正発話であるかを分析する。テキスト解析部202は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、テキスト解析部202は、複数の候補をスコアと共に出力してもよい。さらに、テキスト解析部202は、クライアント端末1から送信されたユーザ発話の際のコンテキスト情報(撮像画像やセンサ情報)を考慮して分析してもよい。
The
なお校正情報の分析は、予め生成された校正発話DB22を利用する方法に限定されず、例えば機械学習を用いて校正情報の分析精度を高めていくことも可能である。
The analysis of the proofreading information is not limited to the method using the
最終出力決定部203は、最終的に出力するものを決定する機能を有する。例えば最終出力決定部203は、音声認識により抽出された特定のキーワード(例えば「校正モード」「切替」など)や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。複数の解析結果がある場合、最終出力決定部203は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。
The final
通常発話と判断した場合、最終出力決定部203は、音声認識された文字列を通信部21からクライアント端末1に送信する。一方、校正発話と判断した場合、最終出力決定部203は、テキスト解析部202により分析され、最終決定した校正指令に基づいて校正ターゲットを処理し、校正結果を校正情報として通信部21からクライアント端末1に送信する。
When it is determined that the utterance is normal, the final
また、最終出力決定部203は、コンテキスト情報としてクライアント端末1から送信された、撮像部12でユーザの動作を撮像した撮像画像を解析し、事前に登録されている身体の動きを検出して、通常入力モードと文章校正モードの切り替えを行ってもよい。若しくは、最終出力決定部203は、コンテキスト情報としてクライアント端末1から送信された、センサ13で検知したセンサ情報を解析して、事前に登録されている動き(例えば画面を振る、画面にタッチする等)を検出し、通常入力モードと文章校正モードの切り替えを行ってもよい。
Further, the final
また、最終出力決定部203は、ユーザ発話のテキスト解析結果と、撮像画像やセンサ情報とを組み合わせて、校正発話であるか否かを判断することもできる。例えば最終出力決定部203は、ユーザが画面に表示されている文字を示しながら「ここから先を全て削除」と発話した場合、発話内容の解析結果と、画面上の文字を示している動作から、文章校正モードであると判断する。
Further, the final
ここで、本実施形態によるユーザ発話例と各発話の最終出力例について、図4〜図9を参照して具体的に説明する。 Here, a user utterance example and a final output example of each utterance according to the present embodiment will be specifically described with reference to FIGS.
(A)文字の種類の指定
図4は、入力する文字の種類の指定を音声で行う場合の具体例を示す図である。例えば図4の1行目に示すように、ユーザ発話が「かたかなのとうきょうたわー」の場合、音声認識部201は、音声認識により「カタカナの東京タワー」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「カタカナの東京タワー」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「カタカナの」を文字の種類『片仮名』の校正指定と分析し、「東京タワー」を校正ターゲットと分析する。これにより、図4の1行目に示すように最終出力結果が片仮名で表現される「トウキョウタワー」となる。
(A) Designation of Character Type FIG. 4 is a diagram showing a specific example in the case of designating the type of character to be input by voice. For example, as shown in the first line of FIG. 4, when the user utterance is “Katakana no Kyoto”, the
また、図4の2行目に示すように、ユーザ発話が「えむだけおおもじのまいける」の場合、音声認識部201は、音声認識により「エムだけ大文字のマイケル」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「エムだけ大文字のマイケル」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「エムだけ大文字の」を文字の種類の指定『アルファベット大文字』の校正指定と分析し、「マイケル」を校正ターゲットと分析する。これにより、図4の2行目に示すように最終出力結果が「Michael」となる。
Also, as shown in the second line of FIG. 4, when the user utterance is “Emoji can only be ignored”, the
(B)音やトランスクリプションの利用
図5は、入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。例えば図5の1行目に示すように、ユーザ発話が「ゆうきゅうきゅうかのゆうにこどものこ」の場合、音声認識部201は、音声認識により「有給休暇の有に子供の子」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「有給休暇の有に子供の子」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「有給休暇の有」を漢字の校正指定と分析し、「有」を校正ターゲットと分析する。また、「子供の子」を漢字の校正指定と分析し、「子」を校正ターゲットと分析する。これにより、図5の1行目に示すように最終出力結果がユーザ希望の漢字で表現される「有子」となる。「ユウコ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
(B) Utilization of Sound and Transcription FIG. 5 is a diagram showing a specific example in the case where designation of Kanji conversion of input characters is performed by voice. For example, as shown in the first line of FIG. 5, when the user utterance is “Yukyu Kyu no Yuuni Kodomo no Moko”, the
また、図5の2行目に示すように、ユーザ発話が「しらとりのとりはとっとりのとり」の場合、音声認識部201は、音声認識により「白鳥の鳥は鳥取の取」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「白鳥の鳥は鳥取の取」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「白鳥の鳥は鳥取の取」を漢字の校正指定と分析し、「白鳥」を校正ターゲットと分析する。これにより、図5の2行目に示すように最終出力結果がユーザ希望の漢字で表現される「白取」となる。「シラトリ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
As shown in the second line of FIG. 5, when the user utterance is “Shiratori Totori is Tottori Tori”, the
(C)校正箇所と動作命令
また、校正ターゲットの範囲や校正内容を音声で命令することも可能である。例えば、以下に示すようなユーザ発話と校正情報の分析結果の一例が挙げられる。
(C) Calibration location and operation instruction It is also possible to instruct the calibration target range and calibration contents by voice. For example, an example of the analysis result of the user utterance and the proofreading information as shown below is given.
さらに、図6および図7を参照して一例を説明する。図6は、本実施形態によるユーザ発話と校正情報の分析結果の一例を示す図である。図6に示すように、ユーザ発話が「かきあんけんってところからしたをぜんぶけしてけいぞくけんとうっていれて」の場合、音声認識部201は、音声認識により「下記案件って所から下を全部消して継続検討っていれて」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「下記案件って所から下を全部消して継続検討っていれて」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、「校正指定:『継続検討』に修正」、「校正ターゲット:『下記案件』以降」と分析する。
Furthermore, an example is demonstrated with reference to FIG. 6 and FIG. FIG. 6 is a diagram illustrating an example of a user utterance and calibration information analysis result according to the present embodiment. As shown in FIG. 6, when the user utterance is “all the things that have been done from the location,” the
図7は、図6に示すユーザ発話に対する最終出力結果の一例を示す図である。図7に示すように、画面30に表示されている入力された文章中、「下記案件」以降が削除されて「継続検討」に修正された画面31が最終出力結果として出力される。
FIG. 7 is a diagram illustrating an example of a final output result for the user utterance illustrated in FIG. 6. As shown in FIG. 7, in the input text displayed on the
(D)コンテキスト情報の活用
続いて、コンテキスト情報を考慮した校正処理の一例について説明する。本実施形態では、ユーザ発話の際に取得された撮像画像やセンサ情報を考慮してテキスト解析を行い、校正分析を行うことが可能である。
(D) Utilization of Context Information Next, an example of a calibration process considering the context information will be described. In the present embodiment, it is possible to perform a text analysis and a calibration analysis in consideration of a captured image and sensor information acquired at the time of user utterance.
ここで、図8および図9を参照して表示部15に設けられたタッチセンサにより検知されるセンサ情報を用いた例について説明する。図8は、本実施形態によるユーザ発話とコンテキスト情報を考慮した校正情報の分析結果の一例を示す図である。図8に示すように、ユーザ発話が「ここをごぜんにして」の場合、音声認識部201は、音声認識により「ここを午前にして」といった文字列を出力する。また、ユーザ発話の際に表示部15のタッチセンサにより検知された画面上の位置座標(x,y)を示すセンサ情報が取得される。
Here, an example using sensor information detected by a touch sensor provided in the
この場合、既存の音声認識システムでは、音声認識した文字列そのままに「ここを午前にして」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データとタッチセンサ情報を参照してテキスト解析を行い、「校正指定:『午前』に修正」、「校正ターゲット:座標(x,y)」と分析する。 In this case, in the existing speech recognition system, there is a possibility that the text string that has been speech-recognized is output as “here in the morning”. On the other hand, in the present embodiment, text analysis is performed with reference to the calibration utterance data and touch sensor information with respect to the voice-recognized character string, and “calibration designation: amended to“ AM ””, “calibration target: coordinates (x, y) ”.
図8は、図8に示すユーザ発話に対する最終出力結果の一例を示す図である。図8に示すように、画面32に表示されている入力された文章中、ユーザによりタッチされた座標(x,y)に対応する文字「午後」が削除されて「午前」に修正された画面33が最終出力結果として出力される。
FIG. 8 is a diagram showing an example of a final output result for the user utterance shown in FIG. As shown in FIG. 8, in the input text displayed on the
上述した例では、タッチセンサにより画面上の座標位置を検知しているが、本実施形態はこれに限定されず、ユーザの視線を的確に捉えることができれば同様に実現できる。すなわち、例えば「ここを午前にして」というユーザ発話の際にユーザが注視している画面上の位置を視線センサ(視線トラッカー)により検知し、コンテキスト情報として考慮する。 In the above-described example, the coordinate position on the screen is detected by the touch sensor, but the present embodiment is not limited to this, and can be similarly realized if the user's line of sight can be accurately captured. That is, for example, the position on the screen on which the user is gazing at the time of the user utterance of “Make this here in the morning” is detected by the gaze sensor (gaze tracker) and considered as context information.
また、ユーザの視線により画面上の注目箇所、範囲、領域を特定できれば、画面上に表示された複数候補ある選択肢等から自動的にユーザ希望の候補を絞ることが可能である。
Further, if a point of interest, a range, or an area on the screen can be specified by the user's line of sight, it is possible to automatically narrow down the user's desired candidates from a plurality of candidate options displayed on the screen.
また、本実施形態では、「ここ」「この辺」というように画面上の位置が指定された場合に、座標(x,y)に対応する文字列部分の背景色を変える等してユーザにフィードバックし、注目個所や範囲の確認を行うようにしてもよい。ユーザは、「そこでOK」「違う」等の回答を口頭で行い得る。 In this embodiment, when a position on the screen is designated as “here” or “this side”, the background color of the character string portion corresponding to the coordinates (x, y) is changed, and the like is fed back to the user. Then, it is possible to confirm the attention location and range. The user can verbally answer such as “OK there” or “No”.
(E)キーワードの利用
次に、音声認識したユーザ発話から特定のキーワードが抽出された場合の校正処理の一例について説明する。ユーザ発話が"A, as in Adam. D, as in Denver. T, as in Thomas."の場合、音声認識部201は、音声認識により"A, as in Adam. D, as in Denver. T, as in Thomas."といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに"A, as in Adam. D, as in Denver. T, as in Thomas."と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、"Adam" "Denver" "Thomas"といった、アルファベットのスペルを伝えるために用いられるキーワードが抽出された場合、「校正指定:アルファベット」、「校正ターゲット:"A" "D" "T"」と分析する。これにより、最終出力結果がユーザ希望のスペルで表現される「ADT」となる。
(E) Use of Keywords Next, an example of a proofreading process when a specific keyword is extracted from a speech uttered user utterance will be described. When the user utterance is “A, as in Adam. D, as in Denver. T, as in Thomas.”, The
通信部21は、外部装置と接続し、データの送受信を行う。例えば通信部21は、クライアント端末1からユーザ発話の音声情報やコンテキスト情報を受信したり、上述した音声認識処理結果や、テキスト解析処理結果、または最終出力決定処理結果をクライアント端末1に送信したりする。
The
校正発話DB22は、事前に大量に集められた校正発話データを記憶する記憶部であって、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。校正発話データは、例えば校正発話に用いられるキーワードや文例を含む。
The
<<3.動作処理>>
続いて、本実施形態による情報処理システムの動作処理について図10を参照して説明する。図10は、本実施形態による情報処理システムの動作処理を示すフローチャートである。下記処理は、クライアント端末1の制御部10およびサーバ2の制御部20の少なくともいずれかで行われ得る。
<< 3. Action processing >>
Subsequently, an operation process of the information processing system according to the present embodiment will be described with reference to FIG. FIG. 10 is a flowchart showing an operation process of the information processing system according to the present embodiment. The following process may be performed by at least one of the
図10に示すように、まず、ユーザ発話(音声情報)が取得され(ステップS100)、ユーザ発話に対して音声認識が行われる(ステップS103)。 As shown in FIG. 10, first, a user utterance (voice information) is acquired (step S100), and voice recognition is performed on the user utterance (step S103).
次に、音声認識により出力された文字列に対してテキスト解析が行われる(ステップS106)。具体的には、校正発話データを参照して文字列の校正発話らしさ、および校正発話だった場合における校正情報の分析が行われる。ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。 Next, text analysis is performed on the character string output by voice recognition (step S106). Specifically, referring to the proofreading utterance data, the likelihood of the proofreading of the character string and the proofreading information in the case of the proofreading utterance are analyzed. Context information acquired at the time of user utterance may be used.
次いで、テキスト解析結果に基づいて最終的な出力が決定される(ステップS109)。この際も、ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。 Next, a final output is determined based on the text analysis result (step S109). Also in this case, the context information acquired at the time of user utterance may be used.
次に、最終出力決定により通常発話と判断された場合、音声認識結果の文字列がそのまま出力される(ステップS112)。 Next, when it is determined that the normal utterance is determined by the final output determination, the character string of the voice recognition result is output as it is (step S112).
一方、最終出力決定により校正発話と判断された場合、文章校正が行われ、校正結果が出力される(ステップS115)。 On the other hand, if it is determined that the utterance is proofread based on the final output determination, the sentence is proofread and the proofreading result is output (step S115).
以上、本実施形態による情報処理システムの動作処理について説明した。 The operation processing of the information processing system according to the present embodiment has been described above.
<<4.他のシステム構成>>
本実施形態による情報処理システムの構成は、図1に示す例に限定されず、例えば図11に示すように、処理分散を可能とするエッジサーバ4を含むシステム構成であってもよい。図11は、本実施形態による他のシステム構成を示す図である。図11に示すように、他のシステム構成として、クライアント端末1、サーバ2、およびエッジサーバ4を含むものが考えられる。
<< 4. Other system configuration >>
The configuration of the information processing system according to the present embodiment is not limited to the example illustrated in FIG. 1. For example, as illustrated in FIG. 11, a system configuration including an edge server 4 that enables processing distribution may be used. FIG. 11 is a diagram showing another system configuration according to this embodiment. As shown in FIG. 11, another system configuration including a
本実施形態によるエッジサーバ4の構成例を図12に示す。図12に示すように、エッジサーバ4は、制御部40、通信部41、およびエッジ側校正発話DB42を含む。制御部40は、エッジ側音声認識部401、エッジ側テキスト解析部402、およびエッジ側最終出力決定部403としても機能する。エッジ側音声認識部401は、サーバ2の音声認識部201のサブセット(以下、外部サブセットと称す)であって、エッジ側テキスト解析部402は、テキスト解析部202の外部サブセットであって、エッジ側最終出力決定部403は、最終出力決定部203の外部サブセットである。
A configuration example of the edge server 4 according to the present embodiment is shown in FIG. As illustrated in FIG. 12, the edge server 4 includes a
エッジサーバ4は、サーバ2に比較して中規模の処理サーバであるが、通信距離的にクライアント端末1の近くに配置され、クライアント端末1よりも高精度かつ、通信遅延を短縮することが可能である。
The edge server 4 is a medium-scale processing server as compared with the
クライアント端末1は、自身が持つサブセットで十分な処理ができなかった場合やエラーが出た場合にエッジサーバ4にデータを送信して処理要求を行い、エッジサーバ4から処理結果を受信して利用してもよい。または、クライアント端末1は、エッジサーバ4およびサーバ2にデータを送信して処理要求を行うと共に、自身が持つサブセットでも処理を行い、エッジサーバ4およびサーバ2からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。
The
<<5.まとめ>>
上述したように、本実施形態による情報処理システムによれば、音声入力による文章校正を実現することを可能とする。
<< 5. Summary >>
As described above, according to the information processing system of the present embodiment, it is possible to realize sentence proofreading by voice input.
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 The preferred embodiments of the present disclosure have been described in detail above with reference to the accompanying drawings, but the present technology is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field of the present disclosure can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that it belongs to the technical scope of the present disclosure.
例えば、上述したクライアント端末1、またはサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
For example, it is possible to create a computer program for causing the
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 Further, the effects described in the present specification are merely illustrative or exemplary and are not limited. That is, the technology according to the present disclosure can exhibit other effects that are apparent to those skilled in the art from the description of the present specification in addition to or instead of the above effects.
なお、本技術は以下のような構成も取ることができる。
(1)
文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。
(2)
前記音声情報は、収音したユーザ音声データである、前記(1)に記載の情報処理装置。
(3)
前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、前記(1)に記載の情報処理装置。
(4)
前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、前記(1)に記載の情報処理装置。
(5)
前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、前記(5)に記載の情報処理装置。
(7)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、前記(5)に記載の情報処理装置。
(8)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、前記(5)に記載の情報処理装置。
(9)
前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(1)〜(8)のいずれか1項に記載の情報処理装置。
(10)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(9)に記載の情報処理装置。
(11)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(9)または(10)に記載の情報処理装置。
(12)
文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。
(13)
前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(12)に記載の情報処理装置。
(14)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(13)に記載の情報処理装置。
(15)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(13)または(14)に記載の情報処理装置。
(16)
前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、前記(12)〜(15)のいずれか1項に記載の情報処理装置。
(17)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。
(18)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。
In addition, this technique can also take the following structures.
(1)
A transmitter for transmitting voice information including a sentence proofreading command and a proofreading target;
A receiving unit for receiving a processing result based on the calibration command and the calibration target;
An information processing apparatus comprising:
(2)
The information processing apparatus according to (1), wherein the voice information is collected user voice data.
(3)
The information processing apparatus according to (1), wherein the voice information is feature amount data extracted from collected user voice data.
(4)
The information processing apparatus according to (1), wherein the voice information is data indicating a calibration command and a calibration target recognized from collected user voice data.
(5)
The transmission unit transmits context information at the time of voice input together with the voice information,
The information processing apparatus according to any one of (1) to (4), wherein the reception unit receives a processing result based on the calibration command, a calibration target, and the context information.
(6)
The information processing apparatus according to (5), wherein the context information is sensor information that detects a user action.
(7)
The information processing apparatus according to (5), wherein the context information is feature amount data extracted from sensor information that detects a user's operation.
(8)
The information processing apparatus according to (5), wherein the context information is data indicating a result recognized from sensor information obtained by detecting a user operation.
(9)
The processing result received by the receiving unit includes at least one of a speech recognition result of the transmitted speech information, a text analysis result, or calibration information based on a calibration command and a calibration target included in the speech information. The information processing apparatus according to any one of (8) to (8).
(10)
The information processing apparatus according to (9), wherein the processing result includes data indicating a certainty factor of the processing result.
(11)
The information processing apparatus according to (9) or (10), wherein the calibration information includes a calibration result obtained by processing a calibration target based on a calibration command that is finally determined.
(12)
A receiver for receiving voice information including a proofreading command and a proofreading target;
A transmitter for transmitting a processing result based on the calibration command and the calibration target;
An information processing apparatus comprising:
(13)
The processing result transmitted by the transmitting unit includes at least one of a speech recognition result of the received speech information, a text analysis result, or calibration information based on a calibration command and a calibration target included in the speech information. ).
(14)
The information processing apparatus according to (13), wherein the processing result includes data indicating a certainty factor of the processing result.
(15)
The information processing apparatus according to (13) or (14), wherein the calibration information includes a calibration result obtained by processing a calibration target based on a finally determined calibration command.
(16)
The receiving unit receives context information at the time of voice input together with the voice information,
The information processing apparatus according to any one of (12) to (15), wherein the transmission unit transmits a processing result based on the calibration command, a calibration target, and the context information.
(17)
Processor
Sending audio information including proofreading instructions and proofreading targets;
Receiving an analysis result based on the calibration command and the calibration target;
Including an information processing method.
(18)
Processor
Receiving audio information including proofreading instructions and proofreading targets;
Transmitting an analysis result based on the calibration command and the calibration target;
Including an information processing method.
1 クライアント端末
10 制御部
101 ローカル音声認識部
102 ローカルテキスト解析部
103 ローカル最終出力決定部
11 音声入力部
12 撮像部
13 センサ
14 通信部
15 表示部
16 記憶部
2 サーバ
20 制御部
201 音声認識部
202 テキスト解析部
203 最終出力決定部
21 通信部
22 校正発話DB
3 ネットワーク
4 エッジサーバ
40 制御部
401 エッジ側音声認識部
402 エッジ側テキスト解析部
403 エッジ側最終出力決定部
41 通信部
42 エッジ側校正発話DB
DESCRIPTION OF
DESCRIPTION OF SYMBOLS 3 Network 4
Claims (18)
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。 A transmitter for transmitting voice information including a sentence proofreading command and a proofreading target;
A receiving unit for receiving a processing result based on the calibration command and the calibration target;
An information processing apparatus comprising:
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、請求項1に記載の情報処理装置。 The transmission unit transmits context information at the time of voice input together with the voice information,
The information processing apparatus according to claim 1, wherein the reception unit receives a processing result based on the calibration command, a calibration target, and the context information.
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。 A receiver for receiving voice information including a proofreading command and a proofreading target;
A transmitter for transmitting a processing result based on the calibration command and the calibration target;
An information processing apparatus comprising:
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、請求項12に記載の情報処理装置。 The receiving unit receives context information at the time of voice input together with the voice information,
The information processing apparatus according to claim 12, wherein the transmission unit transmits a processing result based on the calibration command, a calibration target, and the context information.
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。 Processor
Sending audio information including proofreading instructions and proofreading targets;
Receiving an analysis result based on the calibration command and the calibration target;
Including an information processing method.
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。
Processor
Receiving audio information including proofreading instructions and proofreading targets;
Transmitting an analysis result based on the calibration command and the calibration target;
Including an information processing method.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016102755A JP2017211430A (en) | 2016-05-23 | 2016-05-23 | Information processing device and information processing method |
PCT/JP2017/006281 WO2017203764A1 (en) | 2016-05-23 | 2017-02-21 | Information processing device and information processing method |
EP17802366.9A EP3467820A4 (en) | 2016-05-23 | 2017-02-21 | Information processing device and information processing method |
US16/301,058 US20190189122A1 (en) | 2016-05-23 | 2017-02-21 | Information processing device and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016102755A JP2017211430A (en) | 2016-05-23 | 2016-05-23 | Information processing device and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017211430A true JP2017211430A (en) | 2017-11-30 |
Family
ID=60412429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016102755A Pending JP2017211430A (en) | 2016-05-23 | 2016-05-23 | Information processing device and information processing method |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190189122A1 (en) |
EP (1) | EP3467820A4 (en) |
JP (1) | JP2017211430A (en) |
WO (1) | WO2017203764A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022518339A (en) * | 2018-12-06 | 2022-03-15 | ベステル エレクトロニク サナイー ベ ティカレト エー.エス. | Command generation technology for voice-controlled electronic devices |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021064886A1 (en) * | 2019-10-02 | 2021-04-08 | 三菱電機株式会社 | Information processing device, program, and information processing method |
KR20210133600A (en) * | 2020-04-29 | 2021-11-08 | 현대자동차주식회사 | Method and apparatus for speech recognition in vehicle |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3797497B2 (en) * | 1996-03-28 | 2006-07-19 | 株式会社Yozan | Message creation method for pager |
JPH11184495A (en) * | 1997-12-24 | 1999-07-09 | Toyota Motor Corp | Speech recognition device |
JP2010197709A (en) * | 2009-02-25 | 2010-09-09 | Nec Corp | Voice recognition response method, voice recognition response system and program therefore |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
KR101394253B1 (en) * | 2012-05-16 | 2014-05-13 | 광주과학기술원 | Apparatus for correcting error of speech recognition |
CN103885743A (en) * | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | Voice text input method and system combining with gaze tracking technology |
JP2014149612A (en) * | 2013-01-31 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | Voice recognition error correction device and its program |
GB2518002B (en) * | 2013-09-10 | 2017-03-29 | Jaguar Land Rover Ltd | Vehicle interface system |
JP2015175983A (en) * | 2014-03-14 | 2015-10-05 | キヤノン株式会社 | Voice recognition device, voice recognition method, and program |
US9684827B2 (en) * | 2014-03-26 | 2017-06-20 | Microsoft Technology Licensing, Llc | Eye gaze tracking based upon adaptive homography mapping |
-
2016
- 2016-05-23 JP JP2016102755A patent/JP2017211430A/en active Pending
-
2017
- 2017-02-21 US US16/301,058 patent/US20190189122A1/en not_active Abandoned
- 2017-02-21 EP EP17802366.9A patent/EP3467820A4/en not_active Withdrawn
- 2017-02-21 WO PCT/JP2017/006281 patent/WO2017203764A1/en unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022518339A (en) * | 2018-12-06 | 2022-03-15 | ベステル エレクトロニク サナイー ベ ティカレト エー.エス. | Command generation technology for voice-controlled electronic devices |
Also Published As
Publication number | Publication date |
---|---|
EP3467820A1 (en) | 2019-04-10 |
WO2017203764A1 (en) | 2017-11-30 |
EP3467820A4 (en) | 2019-06-26 |
US20190189122A1 (en) | 2019-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6635049B2 (en) | Information processing apparatus, information processing method and program | |
US9858924B2 (en) | Voice processing apparatus and voice processing method | |
US20160203002A1 (en) | Headless task completion within digital personal assistants | |
US11317018B2 (en) | Camera operable using natural language commands | |
US10741172B2 (en) | Conference system, conference system control method, and program | |
KR20140028540A (en) | Display device and speech search method thereof | |
US20190019512A1 (en) | Information processing device, method of information processing, and program | |
WO2016152200A1 (en) | Information processing system and information processing method | |
US10720154B2 (en) | Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
JP2017211430A (en) | Information processing device and information processing method | |
WO2016088411A1 (en) | Information-processing apparatus, information-processing method, and program | |
US11398221B2 (en) | Information processing apparatus, information processing method, and program | |
JP6798258B2 (en) | Generation program, generation device, control program, control method, robot device and call system | |
US20200234187A1 (en) | Information processing apparatus, information processing method, and program | |
JP2016156877A (en) | Information processing device, information processing method, and program | |
JP7468360B2 (en) | Information processing device and information processing method | |
US10635802B2 (en) | Method and apparatus for accessing Wi-Fi network | |
US11430429B2 (en) | Information processing apparatus and information processing method | |
US11048356B2 (en) | Microphone on controller with touchpad to take in audio swipe feature data |