JP7383667B2 - 情報処理装置、方法およびプログラム - Google Patents
情報処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP7383667B2 JP7383667B2 JP2021117888A JP2021117888A JP7383667B2 JP 7383667 B2 JP7383667 B2 JP 7383667B2 JP 2021117888 A JP2021117888 A JP 2021117888A JP 2021117888 A JP2021117888 A JP 2021117888A JP 7383667 B2 JP7383667 B2 JP 7383667B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- utterance
- dictionary
- range
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 68
- 238000000034 method Methods 0.000 title description 176
- 230000014509 gene expression Effects 0.000 claims description 24
- 239000000872 buffer Substances 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 88
- 238000001514 detection method Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 35
- 230000005856 abnormality Effects 0.000 description 26
- 238000003860 storage Methods 0.000 description 24
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000007689 inspection Methods 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001290864 Schoenoplectus Species 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
第1の実施形態では、ユーザの自由発話に基づく音声入力により、帳票データに対して値を入力することを想定する。
第1実施形態に係る情報処理装置10は、手順格納部101と、テンプレート格納部102と、音声認識部103と、音声合成部104と、生成部105と、決定部106と、判定部107と、制御部108と、入力部109とを含む。
テンプレート格納部102は、ユーザの発話を検出するためのテンプレートおよび辞書を格納する。
音声合成部104は、ガイダンスなどユーザに通知すべき内容の合成音声を生成する。生成された合成音声は、スピーカ(図示せず)等から出力されればよい。
決定部106は、テンプレートおよび音声認識結果に基づき、複数の項目のうちのユーザの発話により指定された1以上の項目に関する入力対象範囲を決定する。
制御部108は、各種制御を行うことに加え、ディスプレイ(図示せず)に表示される記録用データシート上で入力対象範囲を強調表示する。
入力部109は、各種データ入力を行うことに加え、入力対象範囲に値発話に関する値を入力する。
本実施形態で想定する記録用データシートは、例えば表計算ソフトウェアのような2次元配列されたマス目に値を入力する形式である。以下では、記録用データシートとして、帳票データ20を例に説明する。図2の例では、横方向が列番号(A~D)を示し、縦方向が行番号(1~7)を示す。帳票データ20には、検査日、「汚れが無いか」、「キズが無いか」といった試験項目に関する各データ項目21があり、各データ項目21に対してそれぞれ、ユーザが値を入力するための入力位置22がある。データ項目21は、「外観チェック」および「動作チェック」といったグループに分類されてもよい。
図3に示す入力手順リスト30は、ユーザにより値が入力される入力位置の順番を示すリストである。入力手順リスト30は、手順番号、入力位置、ガイダンスおよび入力済みフラグがそれぞれ対応づけられたテーブルである。入力手順リスト30は、図2に示す帳票データ20と同一データ上に保持されてもよいし、別データとして保持されてもよい。同一データ上に保持するとは、1つのデータファイルに帳票データ20と入力手順リスト30とを保持することを意味する。なお一般的な表計算ソフトウェアであれば、複数のデータシートをまとめて管理できるため、帳票データ20と同一のデータシートに保持されてもよいし、帳票データ20とは別のデータシートに保持されてもよい。
図4に示すテーブルは、ユーザが範囲を指定するときに発話される可能性のあるパターンである発話テンプレートを複数格納する。
ステップS503では、音声合成部104が、入力位置に関する入力を促すガイダンスを音声合成し、合成音声を再生する。例えば、入力手順リスト30の入力位置に対応するガイダンスの文言が音声合成され、スピーカなどから再生されればよい。
ステップS601では、生成部105が、入力対象項目と入力手順リストとに基づいて、判定辞書を生成する。判定辞書は、未入力の入力位置を指定する発話として、ユーザが発話する可能性のある入力位置または複数の入力位置の組み合わせを示す範囲指定テンプレートを複数格納する辞書である。判定辞書の詳細については図7を参照して後述する。
ステップS604では、決定部106が、範囲指定発話により指定された1以上の入力位置を入力対象範囲として決定する。その後、図5のステップS506の処理に進む。なお、ステップS603およびステップS604の処理順序は問わず、どちらが先に実行されてもよい。
ステップS606では、決定部106が、現在の1つの入力対象項目を、入力対象範囲として決定する。その後、図5のステップS506の処理に進む。なお、ステップS605およびステップS606の処理順序は問わず、どちらが先に実行されてもよい。
図7に示す判定辞書70は、複数の範囲指定テンプレート71を含む。範囲指定テンプレート71は、正規表現を含む。正規表現は、発話テンプレートに含まれる任意の入力に対する置換対象部分を、正規表現に展開することで生成される。
つまり、入力手順リスト30における個数、入力位置の識別子、ガイダンスのどの指定でも、対応するエントリの入力位置が入力対象範囲となる。
また、図7の例に限らず、正規表現は、入力手順リストに含まれる入力位置を指定可能な他の表現に基づいて展開されてもよい。
図8に示す判定辞書80のように、1つのテンプレートから複数の範囲指定テンプレート81を設定してもよい。例えば、図7のID「2」の範囲指定テンプレート71は、正規表現として「(?<終点>(D4)|(D5)|(D6)|(D7)|…|(キズ)|(印字)|(点灯状態)|(作動状態)|…)までまとめて」と表現する。なお、「A|B」は、「A」または「B」を認識することを示す非終端記号である。
一方、図8の範囲指定テンプレート81では、各状態をばらして、ID「2-1」の正規表現72「(?<終点>(D4)|(キズ))までまとめて」、ID「2-2」の正規表現72「(?<終点>(D5)|(印字))までまとめて」、ID「2-3」の正規表現72「(?<終点>(D6)|(点灯状態))までまとめて」およびID「2-4」の正規表現72「(?<終点>(D7)|(作動状態))までまとめて」といったように表現してもよい。
図9は、図3に示す入力手順リスト30の手順番号「2」のエントリに関して、処理が開始された場合の、制御部108による帳票データ20の表示例を示す図である。
ここで、ステップS503の処理により、例えば、音声合成部104が、入力手順リスト30のガイダンスの項目「汚れ」の文言を用いた音声ガイダンスとして「『汚れ』はありますか」という合成音声を生成し、ユーザに通知する。当該合成音声を聞いたユーザは、ここでは、「汚れから印字までまとめて異常無し」と発話した場合を想定する。
ステップS504の処理により、音声認識部103が、「汚れから印字までまとめて異常無し」という音声認識結果を生成する。
入力対象範囲の強調表示の別例について図12に示す。図12では、入力対象範囲1201が他のマスとは異なる色に着色されることで、入力対象範囲1201が強調表示される例を示す。このように強調表示は、入力対象範囲1201以外のマスと異なる表示態様であればどのような表示してもよい。
すなわち、範囲を指定するモードなどの切り替えも不要であり、ユーザは追加の設定などのわずらわしさもなく、個別入力とまとめ入力との意識せずに行える。結果として効率的な音声データ入力ができ、音声によるデータ入力の効率性および利便性を向上させることができる。これにより、帳票などの記録用データシートへのデータ入力の作業時間も短縮できる。
第1の実施形態に係る情報処理装置10では、運用前に帳票データからガイダンスとして利用可能な項目を取得して、入力手順リストを生成することを想定しているが、運用中に入力手順リストに入力対象範囲を指定するための文言を追加し、テンプレートを更新してもよい。
図13に示す入力手順リスト130において、図2を試験項目における「外観チェック」および「動作チェック」の文言を入力対象範囲を指定するための文言として用いるため、ユーザにより、入力手順リストにグループ131の項目が追加される。
帳票データへの入力処理が複数回実行されている中で、例えば所定回数以上、複数の入力位置を含む同一の入力対象範囲が設定された場合を想定する。判定部107は、ユーザが高頻度で当該入力対象範囲を指定すると判定し、より短い発話で当該入力対象範囲を指定できるよう、ユーザに新たな発話テンプレートの追加を促してもよい。具体的には、「D3からD5までまとめて」のような始点および終点を含む複数の単語で入力対象範囲が、所定回数以上指定される場合、判定部107は、発話テンプレートの追加を促すと判定する。
第2の実施形態では、特定の形式の発話を音声認識して処理する点が第1の実施形態と異なる。第1の実施形態では、自由発話を想定しているが、作業現場などでは騒音が多く、自由発話に対して正しい音声認識処理が実行できない可能性もある。よって、第2の実施形態に係る情報処理装置が、特定の入力形式に従った発話のみ入力処理を実行することで、音声認識処理の精度を向上させることができ、騒音が多い環境下でも音声による帳票データへの入力処理を実行できる。
図16に示す入力手順リスト160は、図3の入力手順リスト30に加えて、入力形式161の項目を含む。
具体的には、帳票データにおける検査日のデータ項目には、日付の発話のみ認識するように入力形式が「日付」に設定され、汚れのデータ項目には、「異常なし」か「要交換」化のどちらかのみ受け付けるよう、「単語(異常なし|要交換)」が設定される。
第2の実施形態に係る音声認識辞書は、入力対象項目の入力形式の値を認識するための値辞書と、入力対象項目を始点とした範囲指定発話を認識するための第1範囲辞書と、いつでも入力できる範囲指定発話を認識するための第2範囲辞書との3種類の辞書を含む。
値辞書170は、手順番号と文法テンプレートとが対応付けられた辞書である。値辞書170により、手順番号に対応する入力位置には、文法テンプレートに一致する音声認識結果しか入力されない。数値入力用の辞書は簡単のため「$整数○桁」という別定義の文法を用いることとする。手順番号「2~4」は、「異常無し」または「要交換」を認識し、手順番号「5~6」は「動作正常」または「動作異常」を認識する。
第1範囲辞書180は、手順番号と正規表現とが対応付けられた辞書である。第1範囲辞書180は、入力形式が同じ、連続した入力手順のみまとめて入力できる。例えば手順番号「2」の入力手順を始点とした場合、入力形式が同じ範囲である、手順番号「3」もしくは手順番号「4」までのみまとめて入力可能である。具体的には、個数を指定する「2個まとめて」や「3個まとめて」、終点となる入力位置を直接指定する「キズまでまとめて」「印字までまとめて」を範囲指定として用いることができる。また、「("異常無し"|"要交換")」は、図17の値辞書と同様である。一方、手順番号「3」の入力手順を始点とした場合、入力形式が同じ範囲となるのは手順番号「4」までであるため、「3個まとめて」という発話は入力不可となり、「2個まとめて」という発話のみ受け付けられる。
第2範囲辞書190は、手順番号と正規表現とが対応付けられた辞書である。第2範囲辞書190は、入力対象項目の手順番号によらず、どの手順番号が入力対象項目であっても処理可能な発話を想定した辞書である。入力形式が同じ入力位置をまとめて入力するため、入力形式が同じかつ連続した複数の入力手順の組ごとに生成される。図19の例では、手順番号「2~4」の範囲を表すために「汚れから印字まで」といった始点と終点とを指定した発話や、「外観をまとめて」といった入力手順リストの「グループ」を指定した発話を用いることができる。正規表現73のそれに続く「("異常無し"|"要交換")」は、図18に示す第1範囲辞書180と同様である。第2範囲辞書190についても同様に、入力対象範囲を指定するために、手順番号など他の項目を用いてもよい。
なお、図17から図19まででは、値辞書170、第1範囲辞書180および第2範囲辞書190をそれぞれ別の辞書として生成する例を示すが、これに限らず、値のテンプレート、発話の範囲を想定した正規表現とを対応付けた1つの音声認識辞書として生成されてもよい。
図17から図19までに示した値辞書170、第1範囲辞書180および第2範囲辞書190を組み合わせることで、各手順番号のエントリが入力対象項目であるときの、それぞれの音声認識辞書200(文法認識辞書200ともいう)を生成できる。図20の例では、値辞書170、第1範囲辞書180および第2範囲辞書190の各辞書から、手順番号「2」のエントリが入力対象項目であるときのエントリがそれぞれ抽出される。
なお、第2の実施形態では、情報処理装置10による入力処理を実行する前に、値辞書、第1範囲辞書および第2範囲辞書を入力手順リストに基づいて予め生成することを想定するが、入力処理における音声認識処理を実行する前に生成されてもよい。
第3の実施形態では、第2の実施形態に係る入力形式を指定する音声認識処理に加え、音声区間検出を必要としない、キーワード検出型の音声認識処理を実行する点が上述の実施形態と異なる。音声区間検出を必要としないキーワード検出型の音声認識処理を併用することで、発話途中であっても入力対象範囲を特定でき、ユーザに提示できる。
図22に示す第1キーワード認識辞書220は、第2の実施形態に係る図18に示す第1範囲辞書180に相当し、手順番号と、キーワードリストと、値に使用する文法とがそれぞれ対応付けられる。キーワードリストは、対応する発話を検出するための辞書となるキーワードである。値に使用する文法は、後述する図24の文法認識辞書に対応する文法の手順番号である。第1キーワード認識辞書220は、各手順番号のエントリが入力対象項目である場合の、入力対象範囲の終点を表すキーワードが格納される。つまり、例えば手順番号「2」では、共通の値が入力されうる項目として、「汚れ」、「キズ」および「印字」の3つが挙げられるため、キーワード「キズまでまとめて」は、「汚れ」および「キズ」の各入力位置(D3,D4)を示す。また、キーワード「印字までまとめて」は、「汚れ」、「キズ」および「印字」の各入力位置(D3~D5)を示す。
すなわち、第1キーワード認識辞書220および第2キーワード認識辞書230は、範囲指定発話を検出するために用いられる。第1キーワード認識辞書220および第2キーワード認識辞書230は、第2の実施形態に係る図18に示す第1範囲辞書180および図19に示す第2範囲辞書190における範囲指定部分の文法の非終端記号を展開することで生成されてもよい。なお、第1キーワード認識辞書220および第2キーワード認識辞書230は、どちらか一方が生成される場合も同様に、入力処理を実行できる。
図24に示す文法認識辞書240は、第2の実施形態に係る図17に示す値辞書170と同様であり、値発話を認識するための辞書である。文法認識辞書240は、手順番号と文法テンプレートとを含む。文法テンプレートは、図17に示す文法テンプレートと同様である。図24の例では、手順番号「2~4」の入力形式は、図16に示す入力手順リスト160を参照すれば、「異常なし」または「要交換」であるので、「異常無し|要交換|スキップ」と設定される。
ステップS2501では、制御部108が、入力対象項目の入力位置を強調表示し、さらに現在の入力対象項目の入力形式に基づき音声認識できる内容をユーザに表示する。例えば、入力形式が「単語(異常なし|要交換)」であれば、「異常なし、要交換」のテキストを画面に表示すればよい。表示位置としては、例えば帳票データ上に表示してもよいし、ステータスバーなどの欄外に表示してもよいし、別ウィンドウを用意して当該別ウィンドウ内に表示してもよい。または、テキストで表示することに限らず、「異常なしまたは要交換のどちらかを発話して下さい」という旨の合成音声を生成して再生し、ユーザに通知してもよい。
ステップS2507では、音声認識部103が、ユーザからの発話に備えて、ステップS2502と同様に現在の手順番号に対応した第1キーワード認識辞書と、第2キーワード認識辞書を用いてキーワード検出を、ステップ2503で検出されたキーワードに対応する値用に使用する文法テンプレートを用いて文法型認識をそれぞれ開始する。
ステップS2510では、決定部106が、文法型認識が出力する音声認識結果を値発話として設定する。
その後は、第1の実施形態および第2の実施形態と同様に、確認メッセージに関する合成音声を再生し、入力内容が確定した場合に、入力部109が、帳票データの入力位置に値発話に関する文字列を入力する。その後、値が入力された入力位置に関する入力手順リストのエントリを入力済みとし、次の未入力の入力位置に対して図25に示す入力処理を実行する。以上で第3の実施形態に係る情報処理装置10の入力処理を終了する。
第1キーワード認識辞書では、例えば図22の手順番号「2」に関するキーワードリストを用い、第2キーワード認識辞書では、図23の全てのキーワードリストが用いられ、キーワード検出が開始される。一方、文法認識辞書では、図24の手順番号「2~4」に対応する文法テンプレートが用いられ、文法型認識が開始される。また、併せて発話の録音も実施される。
キーワード検出では、音声検出区間を特定する必要が無いため、発話の途中でもキーワードの検出が完了次第、発話に対応した入力対象範囲を更新し、帳票データ上で強調表示できる。なお、更新された入力対象範囲に入力可能な入力形式の文字列が表示されてもよい。
文法型認識型で検出された「異常無し」の文字列は、値発話であるため、入力対象範囲「D3~D5」に入力される。
第3の実施形態では、範囲指定発話はキーワード検出に関する音声認識処理で検出することを想定したが、第4の実施形態では、範囲指定発話の終端をキーワード検出に関する音声認識処理で、範囲指定発話および値発話は、文法型認識に関する音声認識処理で検出することを想定する。
第4の実施形態に係る情報処理装置10は、第3の実施形態に係る情報処理装置に加え、バッファ部281を含む。
バッファ部281は、ユーザの発話に関する音声データを、少なくとも所定期間遡って利用できるようにバッファリングする。
図29に示すキーワード認識辞書は、範囲指定発話の終端を検出できるように設定される。例えば、「個まとめて」、「までまとめて」といった末尾部分に関するキーワードを用いればよい。キーワード認識辞書は、例えば範囲指定テンプレートの末尾部分を抽出することで生成されればよい。なお、末尾部分をどこまで抽出するかに関しては、キーワード検出がおこなえればよい。例えば、運用において検出精度が確保できれば「まとめて」の文言をキーワードとして設定してもよいし、「まとめて」の文言では短すぎて検出精度が劣化する場合は、末尾部分の文言を長く設定すればよい。
文法認識辞書として、キーワードが検出された際に音声を遡って認識するための範囲辞書であり、入力対象項目を始点とした入力形式に関する第1文法認識辞書と、いつでも検出可能な入力形式に関する第2文法認識辞書と、値辞書とが用いられる。
図31は、第2文法認識辞書310の一例である。第2文法認識辞書310もキーワードではなく非終端記号による文法である点が異なるが、図23に示す第2キーワード認識辞書230と同様である。値辞書は図24に示す文法認識辞書を用いればよい。
図32に示す文法認識辞書320は、例えば、図30に示す第1文法認識辞書300から手順番号「2」を始点とした文法テンプレートを、図31に示す第2文法認識辞書310から全ての文法テンプレートをそれぞれ抽出することで生成される。なお、図32のように、音声認識辞書として1つの辞書にまとめず、キーワード認識辞書290、第1文法認識辞書300、第2文法認識辞書310および値辞書がそれぞれ用いられてもよい。
なお、第4の実施形態に係る情報処理装置10では、バッファ部281が、所定期間T分の音声をバッファリングしておく。バッファリングは、常に最新の所定期間T分は少なくとも保持し、所定期間Tを超過した過去の音声については破棄してもよい。所定期間Tの長さは、30秒など予め定められた時間長でもよいし、入力手順リストにおけるガイダンスの文言など、入力対象範囲を指定するための発話パターンのうち、「最長モーラ数×1モーラ分」の長さでもよいし、これらの値を基準として算出される長さでもよい。
ステップS3302では、音声認識部103が、ステップS2503においてキーワードが検出された場合、現時点から所定期間Tに対応する音声データまで遡り、バッファリングされた所定期間Tの音声に対して、最先の時刻からキーワードの終端時刻までの音声を音声区間として、現在の手順に対応する範囲辞書を用いて文法型認識を実行する。なお、所定期間Tの設定によっては、バッファリングされた音声の中には複数の音声区間が存在することも考えられる。この場合、複数の音声認識結果が得られることが想定されるが、最新の音声区間に対応する音声認識結果を採用すればよい。
ステップS3303では、音声認識部103が、キーワード認識辞書を用いてキーワード検出を、決定された入力対象範囲に対応する値辞書を用いて文法型認識を開始する。
その後処理は、第3の実施形態に係る入力処理と同様である。
また、区間343において、キーワード検出に関する音声認識処理によりキーワードが検出された場合、当該キーワードに関する発話の終端を基準として一定期間遡り、バッファリングされた音声に対して範囲辞書を用いた文法型認識が実行されればよい。
上述の実施形態では、帳票データに値を入力するための入力位置に関する入力対象範囲を決定するが、帳票データの日報などを作成する場合、過去に生成した帳票データに入力した値をコピーしたいという状況も想定される。そこで、第5の実施形態では、入力位置に入力される値のコピー対象範囲を決定する。
図35の上段は、検査日が「2021/02/15」である現在入力中の帳票データであり、下段は検査日が「2021/02/01」の過去に値が入力された帳票データである。
情報処理装置10は、例えば特定の文言をトリガとして、過去の帳票データから値をコピーするため、コピー対象範囲351を決定する処理を実行する。例えば、情報処理装置10は、音声認識部103が、「コピーモード」という音声認識結果を生成した場合、コピー元となる帳票データに対してコピー対象範囲351を設定するモードに移行すればよい。
コピー対象範囲351が決定された後、第1から第4の実施形態に係る情報処理装置10の入力処理により、入力対象範囲352「D3~D5」が決定される。入力対象範囲352が決定された場合、入力部109は、コピー対象範囲351の値を入力対象範囲352にコピーする。具体的には、入力対象範囲352に対して、D3およびD4には「異常なし」、D5には「やや薄い」がそれぞれ入力される。
情報処理装置10は、CPU(Central Processing Unit)361と、RAM(Random Access Memory)362と、ROM(Read Only Memory)363と、ストレージ364と、表示装置365と、入力装置366と、通信装置367とを含み、それぞれバスにより接続される。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (15)
- 複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある1以上の項目に関するテンプレートを生成する生成部と、
ユーザの発話を音声認識し、音声認識結果を生成する音声認識部と、
前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された1以上の項目に関する入力対象範囲を決定する決定部と、
を具備する情報処理装置。 - 前記音声認識結果が前記テンプレートと一致する部分を含む場合、前記一致する部分に関する発話が、前記入力対象範囲を指定するための範囲指定発話であり、かつ前記音声認識結果の前記一致する部分よりも後の発話が、前記入力対象範囲に入力される値を示す値発話であると判定する判定部をさらに具備する、請求項1に記載の情報処理装置。
- 前記判定部は、前記音声認識結果が前記テンプレートと一致する部分を含まない場合、前記音声認識結果に関する発話が前記値発話であると判定する、請求項2に記載の情報処理装置。
- 前記生成部は、前記テンプレートに基づき、特定の文法による発話を音声認識するための文法認識辞書を生成し、
前記音声認識部は、前記文法認識辞書に一致した前記ユーザの発話を前記音声認識結果として生成する、請求項1から請求項3のいずれか1項に記載の情報処理装置。 - 前記生成部は、前記テンプレートに基づき、特定のキーワードを検出するためのキーワード認識辞書と、特定の文法による発話を音声認識するための文法認識辞書とを生成し、
前記音声認識部は、前記キーワード認識辞書に一致した前記ユーザの第1発話を第1音声認識結果として生成し、前記文法認識辞書に一致した、前記第1発話よりも後の第2発話を第2音声認識結果として生成し、
前記第1音声認識結果を前記入力対象範囲を指定するための範囲指定発話として判定し、前記第2音声認識結果を前記入力対象範囲に入力される値を示す値発話として判定する判定部をさらに具備する、請求項1に記載の情報処理装置。 - 前記ユーザの発話を音声データとしてバッファリングするバッファ部と、判定部とをさらに具備し、
前記生成部は、前記テンプレートに基づき、特定のキーワードを検出するためのキーワード認識辞書と、特定の文法による発話を音声認識するための文法認識辞書とを生成し、
前記音声認識部は、前記キーワード認識辞書に一致した前記ユーザの第1発話を第1音声認識結果として生成し、前記バッファリングされた音声データを用いて、前記第1音声認識結果に対応する音声データ部分から所定期間遡った音声データのうち前記文法認識辞書に一致した第2発話を第2音声認識結果として生成し、
前記判定部は、前記第2音声認識結果を前記入力対象範囲を指定するための範囲指定発話として判定する、請求項1に記載の情報処理装置。 - 前記音声認識部は、前記第1音声認識結果に対応する音声データ部分よりも後の音声データにおいて前記文法認識辞書に一致した第3発話を第3音声認識結果として生成し、
前記判定部は、前記第3音声認識結果を前記入力対象範囲に入力される値を示す値発話として判定する、請求項6に記載の情報処理装置。 - 前記入力対象範囲は、前記記録用データシート上での入力位置を特定する範囲であり、
前記入力位置に前記値発話に関する値を入力する入力部をさらに具備する、請求項2、請求項3、請求項5または請求項7に記載の情報処理装置。 - 前記判定部は、前記値発話が前記入力対象範囲に対する入力のスキップを意図する発話であるか否かを判定する、請求項8に記載の情報処理装置。
- 前記入力部は、前記値発話が前記入力のスキップを意図する発話であると判定された場合、前記入力対象範囲に値を入力しない又は所定の記号を入力する、請求項9に記載の情報処理装置。
- 前記記録用データシート上で前記入力対象範囲を強調表示する制御部をさらに具備する、請求項1から請求項10のいずれか1項に記載の情報処理装置。
- 前記テンプレートは、前記入力対象範囲の終点と、前記入力対象範囲の始点および終点と、前記入力対象範囲に含まれる項目の個数と、前記入力対象範囲に含まれる項目の名称との少なくともいずれか1つを指定する発話に一致する表現である、請求項1から請求項11のいずれか1項に記載の情報処理装置。
- 前記入力順序は、項目の名称と、前記項目に対する値を入力する入力位置の識別子と、前記項目のグループ名との少なくとも1つとそれぞれ対応付けられ、
前記テンプレートは、前記入力順序と対応付けられた、前記名称と、前記識別子と、前記グループ名との少なくとも1つを用いて前記入力位置を指し示す、請求項1から請求項12のいずれか1項に記載の情報処理装置。 - 複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある1以上の項目に関するテンプレートを生成し、
ユーザの発話を音声認識し、音声認識結果を生成し、
前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された1以上の項目に関する入力対象範囲を決定する、情報処理方法。 - コンピュータを、
複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある1以上の項目に関するテンプレートを生成する生成手段と、
ユーザの発話を音声認識し、音声認識結果を生成する音声認識手段と、
前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された1以上の項目に関する入力対象範囲を決定する決定手段として機能させるための情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021117888A JP7383667B2 (ja) | 2021-07-16 | 2021-07-16 | 情報処理装置、方法およびプログラム |
US17/652,554 US20230014452A1 (en) | 2021-07-16 | 2022-02-25 | Information processing apparatus, method and computer readable medium |
CN202210183308.9A CN115620724A (zh) | 2021-07-16 | 2022-02-28 | 信息处理装置、方法以及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021117888A JP7383667B2 (ja) | 2021-07-16 | 2021-07-16 | 情報処理装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023013585A JP2023013585A (ja) | 2023-01-26 |
JP7383667B2 true JP7383667B2 (ja) | 2023-11-20 |
Family
ID=84857380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021117888A Active JP7383667B2 (ja) | 2021-07-16 | 2021-07-16 | 情報処理装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230014452A1 (ja) |
JP (1) | JP7383667B2 (ja) |
CN (1) | CN115620724A (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101162A (ja) | 1999-09-27 | 2001-04-13 | Just Syst Corp | 文書処理装置、及び文書処理プログラムが記憶された記憶媒体 |
US20040044523A1 (en) | 2001-03-22 | 2004-03-04 | Canon Kabushiki Kaisha | Information processing apparatus and method, and program |
JP2015530687A (ja) | 2012-10-09 | 2015-10-15 | マイクロソフト テクノロジー ライセンシング,エルエルシー | コンテンツ選択および拡張コンテンツ選択のためのユーザインタフェース |
JP2017084146A (ja) | 2015-10-29 | 2017-05-18 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2018072508A (ja) | 2016-10-27 | 2018-05-10 | トッパン・フォームズ株式会社 | 音声入力装置、音声入力方法 |
JP2020067788A (ja) | 2018-10-24 | 2020-04-30 | パナソニックIpマネジメント株式会社 | 操作入力方法、操作入力システムおよび操作端末 |
-
2021
- 2021-07-16 JP JP2021117888A patent/JP7383667B2/ja active Active
-
2022
- 2022-02-25 US US17/652,554 patent/US20230014452A1/en active Pending
- 2022-02-28 CN CN202210183308.9A patent/CN115620724A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101162A (ja) | 1999-09-27 | 2001-04-13 | Just Syst Corp | 文書処理装置、及び文書処理プログラムが記憶された記憶媒体 |
US20040044523A1 (en) | 2001-03-22 | 2004-03-04 | Canon Kabushiki Kaisha | Information processing apparatus and method, and program |
JP2005500591A (ja) | 2001-03-22 | 2005-01-06 | キヤノン株式会社 | 情報処理装置及びその方法、プログラム |
JP2015530687A (ja) | 2012-10-09 | 2015-10-15 | マイクロソフト テクノロジー ライセンシング,エルエルシー | コンテンツ選択および拡張コンテンツ選択のためのユーザインタフェース |
JP2017084146A (ja) | 2015-10-29 | 2017-05-18 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2018072508A (ja) | 2016-10-27 | 2018-05-10 | トッパン・フォームズ株式会社 | 音声入力装置、音声入力方法 |
JP2020067788A (ja) | 2018-10-24 | 2020-04-30 | パナソニックIpマネジメント株式会社 | 操作入力方法、操作入力システムおよび操作端末 |
Also Published As
Publication number | Publication date |
---|---|
CN115620724A (zh) | 2023-01-17 |
JP2023013585A (ja) | 2023-01-26 |
US20230014452A1 (en) | 2023-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037553B2 (en) | Learning-type interactive device | |
US10616414B2 (en) | Classification of transcripts by sentiment | |
WO2019210557A1 (zh) | 语音质检方法、装置、计算机设备及存储介质 | |
KR102072730B1 (ko) | 핫워드 적합성을 결정하는 방법 및 장치 | |
JP5150747B2 (ja) | 音声認識エラー予測値としての文法適合度評価のための方法およびシステム | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
JP4827721B2 (ja) | 発話分割方法、装置およびプログラム | |
JP5756555B1 (ja) | 発話評価装置、発話評価方法及びプログラム | |
Mairesse et al. | Can prosody inform sentiment analysis? experiments on short spoken reviews | |
JP2014145842A (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2013206253A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
US20160335050A1 (en) | Automatic visual display of audibly presented options to increase user efficiency and interaction performance | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP7383667B2 (ja) | 情報処理装置、方法およびプログラム | |
JP2009265276A (ja) | 支援装置、プログラムおよび支援方法 | |
JP6427377B2 (ja) | 設備点検支援装置 | |
JP5164922B2 (ja) | 個人情報削除装置とその方法、そのプログラムと記録媒体 | |
JP4220151B2 (ja) | 音声対話装置 | |
JP2021131417A (ja) | 音声認識装置、個人識別方法および個人識別プログラム | |
JP2022032544A (ja) | グラフ作成装置、グラフ作成方法及びプログラム | |
JP2009157050A (ja) | 発話検証装置及び発話検証方法 | |
JP2022181361A (ja) | 学習支援システム | |
KR20200004175A (ko) | 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231108 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7383667 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |