JP2017116714A - 音声入力装置、その方法及びプログラム - Google Patents

音声入力装置、その方法及びプログラム Download PDF

Info

Publication number
JP2017116714A
JP2017116714A JP2015251507A JP2015251507A JP2017116714A JP 2017116714 A JP2017116714 A JP 2017116714A JP 2015251507 A JP2015251507 A JP 2015251507A JP 2015251507 A JP2015251507 A JP 2015251507A JP 2017116714 A JP2017116714 A JP 2017116714A
Authority
JP
Japan
Prior art keywords
speech recognition
phrase
recognition result
hierarchical
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015251507A
Other languages
English (en)
Other versions
JP6367786B2 (ja
Inventor
亮 増村
Akira Masumura
亮 増村
賢昭 佐藤
Takaaki Sato
賢昭 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015251507A priority Critical patent/JP6367786B2/ja
Publication of JP2017116714A publication Critical patent/JP2017116714A/ja
Application granted granted Critical
Publication of JP6367786B2 publication Critical patent/JP6367786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】N階層の階層的フレーズ木に基づく入力において、音声入力により、第n-1階層以下を入力せずに第n階層の入力することができ、同時に第n-1階層以下の入力値を取得することができる音声入力装置等を提供する。
【解決手段】音声入力装置は、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む。
【選択図】図3

Description

本発明は、入力音声に対する音声認識結果を入力対象に入力する音声入力装置、その方法及びプログラムに関する。
既存のパソコン(以下「PC」ともいう)やスマートフォン上の入力は、キーボード入力やクリックによる入力など多種多様であるが、音声認識と組み合わせることでさらなる利便性の向上が検討されてきた。例えば、音声検索では、従来キーボートで文字列を入力することで検索していたものを、音声で入力することで検索し、利便化が図られている。例えば音声検索の従来技術として特許文献1が挙げられる。
また、入力システムとして階層的フレーズ木に基づく入力がある。例えば、医療分野における所見情報入力システムや、流通分野における発注情報入力システムにおいては、しばしば階層的フレーズ木を利用した入力システムが組まれている。階層的フレーズ木とは、複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものである。階層的フレーズ木の例を図1に示す。例えば流通分野におけるスーパーの発注システムであれば、第一階層のカテゴリは例えば「商品の大カテゴリ」であり、「食品」、「雑貨」、「日用品」などがフレーズとして存在する。第二階層のカテゴリは例えば「商品の中カテゴリ」であり、第一階層のカテゴリが「食品」の場合、その木の枝につながる第二階層のフレーズは「飲料」「野菜」「鮮魚」「その他の食品」などが考えられる。第三階層であれば、例えばカテゴリは「商品名」であり、第一階層が「食品」、第二階層が「鮮魚」の場合、その木の枝につながる第三階層には「まぐろ」「鮭」「さんま」「鯖」などのフレーズが存在することが考えられる。以下、同様に第三階層、第四階層と複数の階層について階層木構造をなしている。
このような階層的フレーズ木を利用した入力システムは、通常PC等で動作するソフトウエアにおいて、図2のようなカラム入力として作られることが多い。第一カラムが階層的フレーズ木の第一階層と対応付いている。同様に、第二カラム以降が階層的フレーズ木の第二階層以降と対応付いている。つまり、階層的フレーズ木の第n階層のフレーズ群が第nカラムの入力に対応する。各カラムには、各階層に属するフレーズが入力可能な候補となっており、選択式でカラムに入力する内容を決定することができる。また階層的フレーズ木を活かして、効率的に候補を絞ることができる。例えば第一カラムで「食品」を指定すると、第二カラムでは第一カラムで指定した木につながる候補である「飲料」「野菜」「鮮魚」「その他の食品」のみが候補として出てきて、その中から選択式でカラムの入力を選ぶことが可能となっている。言い換えると、第n-1階層で選択されたカラムの入力値に基づき、第n階層で選択可能なフレーズ群が絞られる。
このような階層的フレーズ木に基づく入力は、入力情報の構造化(データベース化)と深く結びついており、「食品」がどの程度発注されているか?「鮮魚」がどの程度発注されているか?などの情報を構造化しておくことに優れている。また、このような階層的フレーズ木に基づく入力は、階層的フレーズ木を準備すれば、簡単に構築することができる。
米国特許第7027987号明細書
階層的フレーズ木に基づく入力では、第一カラムから順番に入力することで、効率的に候補を減らしながら、カラムを埋めることが可能である。しかしながら、第一カラムから順番にカラムを指定していく行為はしばしば有用でない場合がある。例えば、前述の発注システムで「さんま」を発注したいと考えた場合、第一カラムで「食品」、第二カラムで「鮮魚」、第三カラムで「さんま」と順番に選択する必要があるが、第一カラムや第二カラムの選択は、しばしば労力となり得る。つまり、既存の階層的フレーズ木に基づく入力の課題は「利便性」である。
なお、既存の階層的フレーズ木に基づく入力が上述のような形態をとっている理由は2つある。一つは、最初から第三カラムを指定可能な入力としてしまうと、「食品」、「雑貨」、「日用品」のあらゆる第三カラムの存在の中から選択する必要があり、その指定の行為は非現実的である。もう一つは、第一カラムや第二カラムで指定される情報も、構造化しておきたいからである。
本発明は、N階層の階層的フレーズ木に基づく入力において、音声入力により、第n-1階層、第n-2階層、…、第1階層を入力せずに第n階層の入力することができ、同時に第n-1階層、第n-2階層、…、第1階層の入力値を取得することができる音声入力装置、その方法及びプログラムを提供することを目的とする。ただし、n=1,2,…,Nである。
上記の課題を解決するために、本発明の一態様によれば、音声入力装置は、複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音声入力方法は、複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、認識結果決定部が、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定ステップと、入力決定部が、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定ステップとを含む。
本発明によれば、第n-1階層、第n-2階層、…、第1階層を入力せずに第n階層の入力を行うことができ、同時に第n-1階層、第n-2階層、…、第1階層の入力値を取得することができるという効果を奏する。
階層的フレーズ木の例を示す図。 階層的フレーズ木に基づく入力の例を示す図。 第一実施形態に係る音声入力装置の機能ブロック図。 第一実施形態に係る音声入力装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、階層的フレーズ木と大語彙連続音声認識システムを利用した音声によるカラム入力を実現する。本実施形態のポイントは階層的フレーズ木と大語彙連続音声認識システムを組み合わせる点にある。まず、階層的フレーズ木では、子ノードは、必ず、1つの親ノードを持つ(言い換えると、子ノードは複数の親ノードを持たない)ため、「深い階層のフレーズが決まれば、浅い階層のフレーズを一意に特定できる」。そのため、第n階層のカラムの入力値から根元までは一意に遡ることができる。本実施形態では、階層的フレーズ木のこの性質を利用する。例えば、前述の発注システムの例であれば、深い階層の「さんま」が決まれば、浅い階層の「鮮魚」や「食品」を一意に特定可能である。さらに、階層的フレーズ木の性質を大語彙連続音声認識システムと組み合わせることで、利便性に優れたカラム入力を実現する。具体的には、大語彙連続音声認識システムにより、あらゆる階層のフレーズの音声による入力をはじめから許容し、入力されたフレーズに応じて、浅い階層を含めた各カラムのフレーズを特定する仕組みを実現する。例えば前述の入力システムであれば、「さんま」と発話するのみで、第一カラム「食品」、第二カラム「鮮魚」、第三カラム「さんま」が埋まる仕組みである。さらに本実施形態では、階層的フレーズ木と大語彙連続音声認識の相性を上げるアルゴリズムを導入する。大語彙連続音声認識システムは公知の通り100%正確に音声認識できるわけではなく、音声認識誤りを起こしてしまう。そこで、大語彙連続音声認識システム自体が音声認識誤りを起こした場合でも、フレーズの入力がうまく動作するようにする。
<第一実施形態>
本実施形態には、階層的フレーズ木と大語彙連続音声認識システムが必要となる。例えば、階層的フレーズ木は電子データとして保存されているものであり、各フレーズに対して、階層の深さ、親階層のフレーズ、子階層のフレーズ群が分かるものを指す。また、大語彙連続音声認識システムは、階層的フレーズ木の全てのフレーズを認識可能な状態であれば、任意のものを使用できる。例えば、参考文献1や参考文献2に書かれたような技術を利用した大語彙連続音声認識システムを使用できる。
(参考文献1)鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄,“IT Text 音声認識システム”,オーム社出版局,2001年.
(参考文献2)荒木雅弘,“イラストで学ぶ音声認識”,講談社,2015年1月.
以下では、階層的フレーズ木と大語彙連続音声性認識システムがあるとして、ある音声が入力された場合のカラムの入力の決定方法についての流れを述べる。
<第一実施形態に係る音声入力装置100>
図3は第一実施形態に係る音声入力装置100の機能ブロック図を、図4はその処理フローを示す。音声入力装置100は、大語彙連続音声認識部101、大語彙連続音声認識システム記憶部102、カラム入力情報決定部103及び階層的フレーズ木記憶部120を含む。さらに、カラム入力情報決定部103は、認識結果決定部110及びカラム入力決定部130を含む。
音声入力装置100の入出力は以下の通りである。
入力:入力音声、階層的フレーズ木、大語彙連続音声認識システム
出力:各階層のカラムの入力情報
なお、この入力音声は人間が発話するものである。出力は図示しない後段のアプリケーションのカラムに入れたい入力情報である。例えば、入力音声「さんま」という発話であれば、出力は、「第一カラム:食品、第二カラム:鮮魚、第三カラム:さんま」といった情報になる。
階層的フレーズ木は音声入力に先立ち予め階層的フレーズ木記憶部120に記憶しておく。また、大語彙連続音声認識システムは、音声入力に先立ち予め大語彙連続音声認識システム記憶部102に記憶しておき、さらに、音声入力に先立ち予め大語彙連続音声認識システム記憶部102から取り出し、大語彙連続音声認識部101で利用できるようにしておく。以下、大語彙連続音声認識部101及びカラム入力情報決定部103における処理の概要を説明する。
<大語彙連続音声認識部101>
入力:入力音声、大語彙連続音声認識システム
出力:K個の音声認識結果候補
大語彙連続音声認識部101は、入力音声に対して大語彙連続音声認識システムで音声認識を行い(S101)、K個の音声認識結果候補を出力する。なお、Kは1以上の整数の何れかである。
大語彙連続音声認識システムは前述の通り任意のものを利用でき、その認識アルゴリズムはシステムによって異なる。K個の音声認識結果候補で受け取る。このK個の音声認識結果候補とは、大語彙連続音声認識システム側でランキング化されたものであり、通常N-best候補と呼ばれている。例えば、100-best候補であれば、上位100位の認識結果の候補を指す。N-bestの作成方法も同様に、大語彙連続音声認識システムに依存する。
大語彙連続音声認識部101は、K個の音声認識結果候補を出力する。例えば、K個の音声認識結果候補は順位付きで出力する。この順位は、認識時のスコアが高い順に順位づけされたものである。Kは、例えば100である。具体的な例としては、ここでは5個の認識結果候補を受け取ることとすると、入力が<さんま>という音声であった場合、出力は一位:「三間」、二位:「さんま」、三位「あっ三間」、四位「あっさんま」、五位「さん」といった出力である。なお、この例では、二位の結果が真の正解音声認識結果候補であり、それ以外の音声認識結果候補は音声認識誤りを起こしている。本来は「さんま」が一位にくることが優れた音声認識システムであるが、しばしばこのような音声認識誤りを起こすことは公知の事実である。また、各音声認識結果候補は、単語分割されている状態とする。つまり前述の、四位「あっさんま」であれば「あっ/さんま」と単語分割が分かる状態で出力される。
<カラム入力情報決定部103>
入力:K個の音声認識結果候補、階層的フレーズ木
出力:各カラムの入力情報
カラム入力情報決定部103は、K個の音声認識結果候補の情報と、階層的フレーズ木に基づいて各カラムの入力情報を決定し(S103)、出力する。以下、カラム入力情報決定部103に含まれる認識結果決定部110とカラム入力決定部130の処理内容を説明する。
<認識結果決定部110>
入力:K個の音声認識結果候補、階層的フレーズ木
出力:音声認識結果
認識結果決定部110は、階層的フレーズ木に基づき、入力音声に対してK個の音声認識結果候補の中から一つの最も信頼できる音声認識結果k^を決定し(S110)、出力する。
認識結果決定部の具体的な流れについて述べる。まず、K=1とした場合は、決定の余地がないため、その1つの音声認識結果候補自体が音声認識結果k^となる。K≧2の場合は、K個の音声認識結果候補の中の1つをどれか決定し、その音声認識結果候補が音声認識結果k^となる。では2個以上の場合の決定方法について述べる。
まず、次の(1)と(2)の2つの値を求める必要がある。なお、フレーズとは階層的フレーズ木の各ノードに存在する文字列のことを指す。
(1)各音声認識結果候補kに階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値Nkを求める。これはフレーズが多い音声認識結果候補ほど正しい可能性が高いという考えに基づく項である。ここでは音声認識結果候補kについてのフレーズの数を第一カウント値Nkとする。前述の例である、一位:「三間」、二位:「さんま」、三位「あっ三間」、四位「あっさんま」、五位「さん」という5個の音声認識結果候補についてそれぞれフレーズが含まれている個数を数えるとすると、図1の階層的フレーズ木を用いる場合、N1=0、N2=1、N3=0、N4=1、N5=0となる。フレーズを数える手段は、各音声認識結果候補kの単語分割は分かる状態であるので、その各単語がフレーズ木の各ノードと同じものが何個あるかを数えることで容易に実現できる。
(2)2以上のフレーズが含まれる音声認識結果候補k(第一カウント値Nkが2以上の音声認識結果候補)に対して、音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値Mkを求める。ここでは、音声認識結果候補kについての合致しない数を第二カウント値Mkとする。これは合致しない音声認識結果候補に対するペナルティ項である。ここでは複数のフレーズが入力されてる場合の例が必要であるため、新たな例を挙げる。一位:「鮮魚の三間」、二位:「鮮魚のさんま」、三位「鮮魚のあっ三間」、四位「野菜あっさんま」、五位「野菜さん」という5個の音声認識結果候補だとする。なお、各音声認識結果候補の単語分割は、一位:「鮮魚/の/三間」、二位:「鮮魚/の/さんま」、三位「鮮魚/の/あっ/三間」、四位「野菜/あっ/さんま」、五位「野菜/さん」とする。この場合について図1の階層的フレーズ木を用いて(1)で計算したものは、それぞれN1=1、N2=2、N3=1、N4=2、N5=1である。また(2)で計算するべきMkについては、M1=0、M2=0、M3=0、M4=1、M5=0となる。ここで、Nkが1以下の場合は、Mkは必ず0となる(Mk=0)。二位:「鮮魚のさんま」でM2=0となるのは、「鮮魚」「さんま」という2つのフレーズについて、第三階層の「さんま」というフレーズについての木を根元にさかのぼった際に第二階層に「鮮魚」があるため、これは木構造に合致する。よって0となっている。一方、四位「野菜あっさんま」でM4=1となるのは、「野菜」「さんま」という2つのフレーズについて、第三階層の「さんま」というフレーズについて木を根元にさかのぼった際にどこにも「野菜」が見つからないため、木構造に合致しないと判断され、1となっている。なお、「最も深い位置に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズ」とは、階層的フレーズ木には含まれるフレーズであって、最も深い位置に位置するフレーズから根元に遡った際に存在するフレーズには含まれないフレーズのことである。なお、各音声認識結果候補に1つのフレーズしか含まれない場合は、Mk=0となる。
以上の、(1)(2)で算出した値を元に、本大語彙連続音声認識部101の出力であるK個の音声認識結果候補kから一つを選択し、音声認識結果k^として出力する。
例えば、以下の式で一意に音声認識結果k^が決定される。
ここでk^は最も信頼できる音声認識結果候補がどれかを示すインデクスである。言い換えると、NkとMkとの差分Nk-Mkが最大となる音声認識結果候補を選択し、これを音声認識結果k^とする。
前述の一位:「鮮魚の三間」、二位:「鮮魚のさんま」、三位:「鮮魚のあっ三間」、四位:「野菜あっさんま」、五位:「野菜さん」(N1=1、N2=2、N3=1、N4=2、N5=1、M1=0、M2=0、M3=0、M4=1、M5=0)の場合、k^=2となり、二位の認識結果候補:「鮮魚のさんま」を出力の認識結果とする。なお、該当するk^が複数存在する場合は、大語彙連続音声認識システムによる順位が高いものを選択する。つまり、大語彙連続音声認識システムによる順位が1位のものと5位のものとが両者とも上記のk^に該当する場合、順位が高い1位の音声認識結果候補を音声認識結果k^として出力する。
<カラム入力決定部130>
入力:音声認識結果、階層的フレーズ木
出力:各カラムの入力情報
カラム入力決定部130は、認識結果と階層的フレーズ木に基づき、各カラムに入る情報を補完して各カラムの入力値を決定し(S120)、補間後の各カラムの入力情報を出力する。カラム入力決定部130の具体的な流れを述べる。
カラム入力決定部130は、階層的フレーズ木を元に、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズを特定する。なお、音声認識結果k^に同階層のフレーズが複数あった場合、最も後に発話されたフレーズを探索する。例えば、「鮮魚のさんま」が音声認識結果であった場合、図1の階層的フレーズ木を参考にした場合、この認識結果に含まれるフレーズは「鮮魚」と「さんま」であるが、最も深い位置にあるフレーズは第三階層に存在する「さんま」である。なお、音声認識結果の各フレーズと階層的フレーズ木の各ノードの対応は文字列マッチングで簡単に特定できる。また、音声認識結果が「さんま、鯖」で認識結果に含まれるフレーズが「さんま」と「鯖」のように同階層の場合は、あとに発話されたフレーズである「鯖」と決定する。
もっとも深い位置にあるフレーズを特定した後に、そのフレーズから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得、保持し、第n階層において取得したフレーズを第nカラムの入力として決定する。例えば、図1の階層的フレーズ木について「さんま」に対して1つ根元に進むと「鮮魚」、もう1つ根元に進むと「食品」がある。これらの各フレーズを根元からの深さに応じて、「第一カラム:食品、第二カラム:鮮魚、第三カラム:さんま」といった形で、各カラムの入力情報を出力する。
<効果>
以上の構成により、第n-1階層、第n-2階層、…、第1階層のカラムを入力せずに第n階層のカラムを入力を行うことができ、同時に第n-1階層、第n-2階層、…、第1階層のカラムの入力値を取得することができる。よって、第一カラムから人手で順番に指定したりすることなく、入力したいフレーズ群を即座に入力可能な利便性の高い入力方式を作成できる。
<変形例>
本実施形態の音声入力装置100は、大語彙連続音声認識部101、大語彙連続音声認識システム記憶部102を含むが、別装置として構成してもよい。その場合、音声入力装置100は、K個の音声認識結果候補を入力とし、カラム入力情報決定部103において、本実施形態と同様の処理を行う。
本実施形態では、カラム入力を対象としたが、階層的フレーズ木に基づく入力方法であって、第n-1階層で選択されたフレーズに基づき、第n階層で選択可能なフレーズ群を絞るような入力方法であれば適用可能である。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、
    階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、
    前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから前記階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む、
    音声入力装置。
  2. 請求項1の音声入力装置であって、
    k=1,2,…,Kとし、前記認識結果決定部は、各音声認識結果候補kに前記階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値Nkを求め、前記第一カウント値Nkが2未満のとき、第二カウント値Mk=0とし、前記第一カウント値Nkが2以上のとき、前記各音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値Mkを求め、第一カウント値Nkと前記第二カウント値Mkとの差分Nk-Mkが最大となる音声認識結果候補を選択し、これを前記音声認識結果k^とする、
    音声入力装置。
  3. 請求項1または請求項2の音声入力装置であって、
    入力音声に対して音声認識を行い得られるK個の音声認識結果候補には、音声認識時のスコアが高い順に順位づけされた順位が付与されているものとし、
    前記認識結果決定部は、前記差分Nk-Mkが同じ音声認識結果候補が複数存在する場合には、音声認識時のスコアが高いものを前記音声認識結果k^とする、
    音声入力装置。
  4. 請求項1から請求項3の何れかの音声入力装置であって、
    前記入力決定部は、前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定する際に、最も深い階層に位置するフレーズが複数個ある場合には、その中で最も後に発話されたフレーズをフレーズfとして特定する、
    音声入力装置。
  5. 複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、
    認識結果決定部が、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定ステップと、
    入力決定部が、前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから前記階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定ステップとを含む、
    音声入力方法。
  6. 請求項5の音声入力方法であって、
    k=1,2,…,Kとし、前記認識結果決定ステップは、各音声認識結果候補kに前記階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値Nkを求め、前記第一カウント値Nkが2未満のとき、第二カウント値Mk=0とし、前記第一カウント値Nkが2以上のとき、前記各音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値Mkを求め、第一カウント値Nkと前記第二カウント値Mkとの差分Nk-Mkが最大となる音声認識結果候補を選択し、これを前記音声認識結果k^とする、
    音声入力方法。
  7. 請求項5または請求項6の音声入力方法であって、
    入力音声に対して音声認識を行い得られるK個の音声認識結果候補には、音声認識時のスコアが高い順に順位づけされた順位が付与されているものとし、
    前記認識結果決定ステップは、前記差分Nk-Mkが同じ音声認識結果候補が複数存在する場合には、音声認識時のスコアが高いものを前記音声認識結果k^とする、
    音声入力方法。
  8. 請求項1から請求項4の何れかの音声入力装置としてコンピュータを機能させるためのプログラム。
JP2015251507A 2015-12-24 2015-12-24 音声入力装置、その方法及びプログラム Active JP6367786B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015251507A JP6367786B2 (ja) 2015-12-24 2015-12-24 音声入力装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015251507A JP6367786B2 (ja) 2015-12-24 2015-12-24 音声入力装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017116714A true JP2017116714A (ja) 2017-06-29
JP6367786B2 JP6367786B2 (ja) 2018-08-01

Family

ID=59234038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015251507A Active JP6367786B2 (ja) 2015-12-24 2015-12-24 音声入力装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6367786B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03153300A (ja) * 1989-11-10 1991-07-01 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH0855128A (ja) * 1994-08-10 1996-02-27 Nippon Telegr & Teleph Corp <Ntt> 階層単語確定処理方法およびこの方法を実施する装置
JPH08202387A (ja) * 1995-01-30 1996-08-09 Fujitsu Ten Ltd 音声認識装置
JPH10312193A (ja) * 1997-05-12 1998-11-24 Nissan Motor Co Ltd 音声入力装置
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03153300A (ja) * 1989-11-10 1991-07-01 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH0855128A (ja) * 1994-08-10 1996-02-27 Nippon Telegr & Teleph Corp <Ntt> 階層単語確定処理方法およびこの方法を実施する装置
JPH08202387A (ja) * 1995-01-30 1996-08-09 Fujitsu Ten Ltd 音声認識装置
JPH10312193A (ja) * 1997-05-12 1998-11-24 Nissan Motor Co Ltd 音声入力装置
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム

Also Published As

Publication number Publication date
JP6367786B2 (ja) 2018-08-01

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US11366866B2 (en) Geographical knowledge graph
KR101778679B1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
JP2019526142A (ja) 検索語句の誤り訂正方法および装置
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
JP2015201185A (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
US20220043978A1 (en) Automatic formulation of data science problem statements
CN112905735A (zh) 用于自然语言处理的方法和设备
CN109241243B (zh) 候选文档排序方法及装置
CN112732870B (zh) 基于词向量的搜索方法、装置、设备及存储介质
US10353936B2 (en) Natural language interpretation of hierarchical data
US11475054B2 (en) Language detection of user input text for online gaming
US11734322B2 (en) Enhanced intent matching using keyword-based word mover&#39;s distance
CN113688313A (zh) 一种预测模型的训练方法、信息推送的方法及装置
US20230044152A1 (en) System and method for multi-modal transformer-based catagorization
KR20210060897A (ko) 음성 처리 방법 및 장치
KR20210064344A (ko) 코드 분류를 위한 하이브리드 머신러닝 모델
CN113010640A (zh) 一种业务执行的方法及装置
US9053087B2 (en) Automatic semantic evaluation of speech recognition results
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
US10032204B2 (en) System and method for synthetic ideation
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
RU2586249C2 (ru) Способ обработки поискового запроса и сервер
JP7055764B2 (ja) 対話制御システム、対話制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180705

R150 Certificate of patent or registration of utility model

Ref document number: 6367786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150