JP2003242147A - ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置 - Google Patents

ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置

Info

Publication number
JP2003242147A
JP2003242147A JP2002040730A JP2002040730A JP2003242147A JP 2003242147 A JP2003242147 A JP 2003242147A JP 2002040730 A JP2002040730 A JP 2002040730A JP 2002040730 A JP2002040730 A JP 2002040730A JP 2003242147 A JP2003242147 A JP 2003242147A
Authority
JP
Japan
Prior art keywords
sentence
diffusion
candidate
representative
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002040730A
Other languages
English (en)
Other versions
JP2003242147A5 (ja
Inventor
Masanobu Nishitani
正信 西谷
Yasunaga Miyazawa
康永 宮澤
Hiroshi Hasegawa
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2002040730A priority Critical patent/JP2003242147A/ja
Publication of JP2003242147A publication Critical patent/JP2003242147A/ja
Publication of JP2003242147A5 publication Critical patent/JP2003242147A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】代表文に対して様々な表現の仕方を生成可能な
ネットワーク文法をコンピュータ上で自動生成する。 【解決手段】代表文を形態素に分割する文解析部1と、
この文解析析部1によって得られたそれぞれの形態素に
接続可能な接続候補を統計的言語モデルからたとえば3
個取得するとともにその取得された1つ1つの接続候補
を前記形態素に接続する処理を、終端記号が出現するま
で再帰的に行い、1つの文として成立し得る文字列が得
られたら、その文字列を文拡散候補として出力する文拡
散部3と、この文拡散部3から出力された文拡散候補を
前記代表文と比較し、当該文拡散結果が前記代表文に対
して同じ意味を有する文拡散候補であるとされた場合に
はその文拡散候補を文拡散結果として出力する文判定部
4と、その文判定部4から渡された文拡散結果に基づい
てネットワーク文法を生成するネットワーク文法生成部
5とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はネットワーク文法生
成方法およびネットワーク文法生成装置ならびにそれに
よって生成されたネットワーク文法を用いた音声認識装
置に関する。
【0002】
【従来の技術】音声コマンドを与えるとその音声コマン
ドを認識してその認識結果に対応した動作を行うシステ
ムにおいては、システム側で認識可能なコマンドが予め
決められていて、そのコマンドが音声として与えられた
ときにそれを認識できるようになっているのが一般的で
ある。
【0003】このようなシステムにおいて、たとえば、
照明の点灯制御や明るさの制御を音声コマンドによって
可能とするシステムを考える。ここで、明るさの制御を
行おうとしたとき、照明の明るさを少しだけ明るくする
場合の命令として、たとえば、「少し明るくしてくださ
い」というコマンドが考えられるが、ユーザ側として
は、そのコマンド内容だけしかシステムが応答してくれ
ないのは大変不便である。
【0004】そこで、それに類似した命令、つまり、同
じ意味を有する命令に対してはすべてシステム側で理解
してそれに対応した動作をしてくれることが好ましい。
一例として、上述した「少し明るくしてください」とい
う音声コマンドに対し、「少し明るく」、「少し明るく
して」、「少し明くるくね」、「少し明るくしてくれ」
など多数の表現の仕方が考えられ、これらの表現の仕方
は、いずれも意味は同じであるので、これらのいずれを
音声コマンドとして与えてもシステム側では同じ動作、
つまり、明るさを少しだけ明るくする動作をしてくれる
ときわめて使い勝手のよいものとなる。
【0005】このように、ある代表的な言い方に対して
それと同じような意味を有する表現の仕方を生成できる
ような言葉のつながりを示すものとしてネットワーク文
法と呼ばれるものがある。
【0006】図5はそのネットワーク文法の一例を示す
もので、この図5は、たとえば、「少し明るくしてくだ
さい」という代表的な表現の仕方(これをここでは代表
文と呼ぶことにする)から生成されたネットワーク文法
の例を示すもので、「少し明るくしてください」という
代表文を構成する構成要素(ここでは形態素)のつなが
りが示されており、図示、左方向から右方向(矢印x方
向)にそれぞれの形態素をつないで行くことによって、
「少し明るくしてください」という代表文に対してそれ
と同じような意味を有する様々な表現の仕方を生成する
ことができる。
【0007】このようなネットワーク文法によれば、あ
る代表文に対してそれと同じような意味を有する様々な
表現の仕方を生成することができ、それによって生成さ
れる表現についてはすべて音声認識可能とすることによ
って、ユーザはシステムに対して音声コマンドの与え方
の自由度が高まり、使い勝手をよくすることができる。
【0008】
【発明が解決しようとする課題】上述したネットワーク
文法は、従来では、文法に関する知識を有する人間が全
ての表現の仕方を考慮しながら手作業で作成するのが一
般的であり、その作成に多くの時間と労力さらにネット
ワーク文法作成に関する十分な知識や経験が必要であ
る。
【0009】一方、最近ではこのネットワーク文法をあ
る程度は自動生成しようとする技術も幾つか提案されて
きている。たとえば、特開平6−180592号公報に
記載された「有限状態ネットワーク自動作成方式」(以
下、第1の従来技術という)や、特開平8−12380
5号公報に記載された「音声認識方法とその装置」(以
下、第2の従来技術という)にもネットワーク文法の生
成に関する技術が示されている。
【0010】しかしながら、第1の従来技術は、単語の
カテゴリや属性を記述した文法ルールやそれらの単語に
関する辞書を人手によって作成して用意しておかなけれ
ばならなず、それを作成するために多くの手間や労力を
費やし、さらに上述したようにネットワーク文法作成に
関する十分な知識や経験も必要である。
【0011】また、第2の従来技術は、まず、直感的に
記述しやすい文法を記述し、それをネットワークで表現
しようとするもので、このネットワークで文の生成を行
い、その文から、意味をなす正しい文を選択して、ネッ
トワークから不要なリンクを取り除くことで、音声認識
のための正しいネットワークを生成するというものであ
るが、この第2の従来技術は、直感的に記述しやすい文
法を記述し、それをネットワークで表現する処理を人手
によって行う必要があり、しかも、文法の記述にはBN
F(Backus -Nour Form)のような記述方式に関する知
識が必要であるなど、結局は文法の記述など多くの部分
を人手によって行わざるを得ない。
【0012】そこで本発明は、代表文を与えるだけで、
あとはコンピュータ上でネットワーク文法を自動生成で
きるようにしたネットワーク文法生成方法およびネット
ワーク文法生成装置を提供するとともに、そのネットワ
ーク文法を用いることで、たとえば、ある音声コマンド
を与える際、多様な音声コマンドを使用することができ
使い勝手に優れた音声認識装置を提供することを目的と
している。
【0013】
【課題を解決するための手段】上述した目的を達成する
ために、本発明のネットワーク文法生成方法は、ある表
現をなすための代表的な文例としての代表文を解析し
て、その代表文から当該代表文を構成する構成要素をそ
れぞれの構成要素単位に分割する文解析工程と、この文
解析工程によって得られたそれぞれの構成要素に対し、
これらそれぞれの構成要素に接続可能な接続候補を、あ
る構成要素に対する言語連鎖情報が格納された言語連鎖
情報格納手段から取得し、その取得された接続候補を前
記構成要素に接続して得られた文字列を文拡散候補とし
て出力する文拡散工程と、この文拡散工程から出力され
る前記文拡散候補を前記代表文と比較し、当該文拡散候
補が前記代表文と同じ意味を有するとされた場合には、
それを文拡散結果として出力する文判定工程と、その文
判定工程から出力された文拡散結果を入力し、ある1つ
の代表文に対して得られた文拡散結果を用いてネットワ
ーク文法を生成するネットワーク文法生成工程とを有し
ている。
【0014】このようなネットワーク文法生成方法にお
いて、前記文拡散工程は、前記文解析工程によって得ら
れた文の並び順に沿ったそれぞれの構成要素に対して、
まず、最初の構成要素に接続可能な接続候補を前記言語
連鎖情報格納手段からn1個取得して、その取得された
n1個の接続候補のうちの1つの接続候補を前記構成要
素に接続し、その接続後の接続候補に接続可能な接続候
補を前記言語連鎖情報格納手段からn2個取得して、そ
の取得されたn2個の接続候補のうちの1つの接続候補
を前記接続後の接続候補に接続する処理を、その接続後
の文字列が1つの文として成立し得るまで再帰的に行
い、1つの文として成立し得る文字列が得られたら、そ
の文字列を文拡散候補として出力し、この再帰的処理を
前記n1、n2、・・・個の他の接続候補についても行
い、その後、前記文の並びに沿った構成要素の2番目以
降の構成要素それぞれに対しても、その構成要素に接続
可能な接続候補を前記言語連鎖情報格納手段からn3個
取得する処理以降の処理を前記同様に行う。
【0015】また、このようなネットワーク文法生成方
法において、前記代表文を解析する文解析工程の後に、
この文解析工程によって得られたそれぞれの構成要素を
入れ換える語順入れ換え工程を設け、この語順入れ換え
工程によって、前記文解析工程で得られたそれぞれの構
成要素を入れ換える語順入れ換え処理を行い、この語順
入れ換え処理によって得られたそれぞれの語順入れ換え
結果における構成要素の並びを前記文拡散処理工程に渡
し、文拡散工程では、この語順入れ換え工程から渡され
たそれぞれの語順入れ換え結果ごとに、前記した文拡散
処理を行うようにすることも可能である。
【0016】このとき、前記文解析工程で得られたそれ
ぞれの構成要素を入れ換える語順入れ換え処理を行い、
この語順入れ換え処理によって得られたそれぞれの語順
入れ換え結果における構成要素の並びを前記文拡散処理
工程に渡す処理は、前記語順入れ換え工程によって語順
入れ換えされたそれぞれの結果を語順入れ換え候補とし
て前記文判定工程に出力し、この文判定工程によって、
それぞれの語順入れ換え候補を前記代表文と比較し、当
該語順入れ換え候補が前記代表文と同じ意味を有すると
された場合には、それを語順入れ換え結果とし、その語
順入れ換え結果における構成要素の並びを前記文拡散処
理工程に渡す処理が含まれている。
【0017】このネットワーク文法生成方法において、
前記言語連鎖情報格納手段は、単語連鎖確率を用いて作
成された統計的言語モデルとしている。
【0018】この言語連鎖情報格納手段に存在する接続
候補のうち、文の終端となり得る構成要素に対しては文
の終端となり得ることを示す終端情報をその構成要素に
対応付けて保存し、この終端情報によって、前記接続後
の文字列が1つの文として成立し得るか否かを判断する
ようにしている。
【0019】このネットワーク文法生成方法において、
前記代表文の構成要素は形態素または複数の形態素の集
合であってもよい。
【0020】また、本発明のネットワーク文法生成装置
は、ある表現をなすための代表的な文例としての代表文
を解析して、その代表文から当該代表文を構成する構成
要素をそれぞれの構成要素単位に分割する文解析手段
と、ある構成要素に対する言語連鎖情報が格納された言
語連鎖情報格納手段と、前記文解析手段によって得られ
たそれぞれの構成要素に対し、これらそれぞれの構成要
素に接続可能な接続候補を、ある構成要素に対する言語
連鎖情報が格納された言語連鎖情報格納手段から取得
し、その取得された接続候補を前記構成要素に接続して
得られた文字列を文拡散候補として出力する文拡散手段
と、この文拡散手段から出力される前記文拡散候補を前
記代表文と比較し、当該文拡散候補が前記代表文と同じ
意味を有するとされた場合には、それを文拡散結果とし
て出力する文判定手段と、その文判定工程から出力され
た文拡散結果を入力し、ある1つの代表文に対して得ら
れた文拡散結果を用いてネットワーク文法を生成するネ
ットワーク文法生成手段とを有した構成としている。
【0021】このようなネットワーク文法生成装置にお
いて、前記文拡散手段は、前記文解析手段によって得ら
れた文の並び順に沿ったそれぞれの構成要素に対して、
まず、最初の構成要素に接続可能な接続候補を前記言語
連鎖情報格納手段からn1個取得して、その取得された
n1個の接続候補のうちの1つの接続候補を前記構成要
素に接続し、その接続後の接続候補に接続可能な接続候
補を前記言語連鎖情報格納手段からn2個取得して、そ
の取得されたn2個の接続候補のうちの1つの接続候補
を前記接続後の接続候補に接続する処理を、その接続後
の文字列が1つの文として成立し得るまで再帰的に行
い、1つの文として成立し得る文字列が得られたら、そ
の文字列を文拡散候補として出力し、この再帰的処理を
前記n1、n2、・・・個の他の接続候補についても行
い、その後、前記文の並びに沿った構成要素の2番目以
降の構成要素それぞれに対しても、その構成要素に接続
可能な接続候補を前記言語連鎖情報格納手段からn3個
取得する処理以降の処理を前記同様に行う。
【0022】このようなネットワーク文法生成装置にお
いて、前記代表文を解析する文解析手段の出力側に、こ
の文解析手段によって得られたそれぞれの構成要素を入
れ換える語順入れ換え手段を設け、この語順入れ換え手
段によって、前記文解析手段で得られたそれぞれの構成
要素を入れ換える語順入れ換え処理を行い、この語順入
れ換え処理によって得られたそれぞれの語順入れ換え結
果における構成要素の並びを前記文拡散処理手段に渡
し、文拡散手段では、この語順入れ換え工程から渡され
たそれぞれの語順入れ換え結果ごとに、前記した文拡散
処理を行うことも可能である。
【0023】このとき、前記文解析手段で得られたそれ
ぞれの構成要素を入れ換える語順入れ換え処理を行い、
この語順入れ換え処理によって得られたそれぞれの語順
入れ換え結果における構成要素の並びを前記文拡散処理
手段に渡す処理は、前記語順入れ換え手段によって語順
入れ換えされたそれぞれの結果を語順入れ換え候補とし
て前記文判定手段に出力し、この文判定手段によって、
それぞれの語順入れ換え候補を前記代表文と比較し、当
該語順入れ換え候補が前記代表文と同じ意味を有すると
された場合には、それを語順入れ換え結果とし、その語
順入れ換え結果における構成要素の並びを前記文拡散処
理手段に渡す処理が含まれている。
【0024】このネットワーク文法生成装置において、
前記言語連鎖情報格納手段は、単語連鎖確率を用いて作
成された統計的言語モデルとしている。
【0025】また、言語連鎖情報格納手段に存在する接
続候補のうち、文の終端となり得る構成要素に対しては
文の終端となり得ることを示す終端情報をその構成要素
に対応付けて保存し、この終端情報によって、前記接続
後の文字列が1つの文として成立し得るか否かを判断す
るようにしている。
【0026】このネットワーク文法生成装置において、
前記代表文の構成要素は形態素または複数の形態素の集
合としている。
【0027】また、本発明の音声認識装置は、音声を入
力する音声入力手段と、この音声入力手段に入力された
音声を特徴分析して音声認識に必要な特徴データを生成
する特徴分析手段と、予め生成されたネットワーク文法
によって得られるそれぞれの文字列に対応する言語モデ
ルを記憶する言語モデル記憶手段と、この言語モデル記
憶手段に記憶されたそれぞれ言語モデルに対応する音声
を音声認識する上で必要な音声モデルを記憶する音声モ
デル記憶手段と、前記特徴分析手段で生成された特徴デ
ータを入力し、前記言語モデル記憶手段と音声モデル記
憶手段を参照して入力音声の認識を行う音声認識処理手
段とを有し、前記ネットワーク文法は、前記請求項1か
ら6のいずれかに記載のネットワーク文法生成方法また
は前記請求項に7から12のいずれかに記載のネットワ
ーク文法生成装置によって生成されたネットワーク文法
を用いる。
【0028】このように本発明は、ある代表文を入力す
るだけであとはコンピュータ上で、その代表文と意味を
同じくする様々な表現の仕方を生成してそれを文拡散結
果として出力し、その文拡散結果をもとにネットワーク
文法を自動生成することができるので、従来のように、
ネットワーク生成を行う際に、単語のカテゴリや属性を
記述した文法ルールやそれらの単語に関する辞書を人手
によって作成して用意するといった人為的な作業を殆ど
不要とすることができる。
【0029】この文拡散処理は、まず、最初の構成要素
に接続可能な接続候補を前記言語連鎖情報格納手段から
n1個取得して、その取得されたn1個の接続候補のう
ちの1つの接続候補を前記構成要素に接続し、その接続
後の接続候補に接続可能な接続候補を前記言語連鎖情報
格納手段からn2個取得して、その取得されたn2個の
接続候補のうちの1つの接続候補を前記接続後の接続候
補に接続する処理を、その接続後の文字列が1つの文と
して成立し得るまで再帰的に行い、1つの文として成立
し得る文字列が得られたら、その文字列を文拡散候補と
して出力し、この再帰的処理を前記n1、n2、・・・
個の他の接続候補についても行い、その後、この処理を
文の並びに沿った構成要素の他の構成要素についても順
次を行うようにしているので、多彩な文拡散を行うこと
ができ、代表文に対する様々な表現の仕方を得ることが
できる。
【0030】また、代表文を解析して構成要素(形態
素)に分割した後に、その構成要素(形態素)を入れ換
える語順入れ換え処理を行ったのちに文拡散処理を行う
ことによって、1つの代表文に対して、よりバリエーシ
ョンに富んだネットワーク文法を生成することができ
る。
【0031】このとき、前記語順入れ換えによって語順
入れ換えされたそれぞれの結果(語順入れ換え候補)を
すべて文拡散処理に渡すのではなく、それぞれの語順入
れ換え候補を前記代表文と比較し、当該語順入れ換え候
補が前記代表文と同じ意味を有するとされた場合のみ
に、それを語順入れ換え結果とし、その語順入れ換え結
果に対して文拡散処理を行うようにしている。
【0032】これによって、語順入れ換え結果として不
適切な候補を除去できるので、無駄な文拡散処理を行わ
なくても済み、処理の効率化が図れるとともに、適切な
文拡散結果を得ることができる。
【0033】また、前記構成要素に接続可能な接続候補
の取得は、単語連鎖確率を用いて作成された統計的言語
モデルから取得するようにしているので、代表文に対し
て幅広い接続候補を得ることができ、それによって、代
表文と同じ意味の多様な表現の仕方を生成することがで
きる。
【0034】また、文の終端となり得る接続候補に対し
ては文の終端となり得ることを示す情報をその接続候補
に対応付けて保存し、前記接続後の文字列が1つの文と
して成立し得るか否かは、当該文の終端となり得ること
を示す情報が取得されたか否かで判断するようにしてい
るので、コンピュータ上でネットワーク文法作成処理を
自動生成する際、処理を高速かつ確実に行うことができ
る。
【0035】また、本発明の音声認識装置は、上述した
ネットワーク文法生成方法またはネットワーク文法生成
装置によって生成されたネットワーク文法を音声認識処
理に用いて音声認識するようにしているので、たとえ
ば、ユーザが音声コマンドを与えることでその音声コマ
ンドを認識し、その認識結果に基づいた動作制御を行う
ようなシステムにあっては、ユーザがシステムに音声コ
マンドを与えるとき、音声コマンドの自由度を高めるこ
とができるので、表現の仕方を変えても的確に音声認識
される可能性が高くなり、使い勝手に優れたものとな
る。
【0036】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明のネットワーク文法生成方法、ネットワーク文法
生成装置、さらには、それによって生成されたネットワ
ーク文法を用いて音声認識を可能とする音声認識装置に
ついての説明を含むものである。
【0037】〔第1の実施の形態〕図1は本発明の第1
の実施の形態におけるネットワーク文法生成装置の構成
図であり、文解析部1、言語連鎖情報格納手段としての
統計的言語モデル2、文拡散部3、文判定部4、ネット
ワーク文法生成部5を有している。
【0038】文解析部1は、ある表現をなす代表的な文
(代表文)を入力して、その代表文から当該代表文を構
成する構成要素をそれぞれの構成要素単位で抽出するも
ので、具体的には形態素解析技術あるいは構文解析技術
を利用して代表文を構成する単語や文節単位に分割する
が、この実施の形態では構成要素の単位を形態素として
説明する。
【0039】統計的言語モデル2は、ある形態素に対し
て、その形態素につながる可能性のある言葉(ここでは
形態素とする)はどれかということが単語連鎖確率によ
って生成された言語モデルであり、ここでは、N-gram
言語モデルを用いるものとする。この統計的言語モデル
2を用いることで、ある形態素が存在したときその形態
素に対して日本語として考えられる形態素のつながりを
生成することができる。
【0040】ただし、ここで用いられる統計的言語モデ
ルは、ある特定の技術分野に特化した統計的言モデルで
あって、ある技術分野に関する文献や、カタログなどを
書き起こしたコーパス(テキストデータ)から生成され
たものであるとする。
【0041】文拡散部3は、文解析部1が代表文を解析
して得た代表文の構成要素つまり形態素を入力し、統計
的言語モデル2を用いて、その形態素に接続可能な形態
素(以下では接続候補という)を予め指定された数(n
個)だけ取得して、それを代表文を構成する形態素に接
続する。そして、その接続後の文字列(形態素列)に対
しても、さらに、統計的言語モデル2を利用してそれに
接続可能な接続候補を取得してそれを接続する。これを
文の終端となり得る接続候補が出現するまで再帰的に行
うことで、代表文を拡張した様々な表現の仕方を有する
形態素列を生成し、それを文拡散候補として出力する。
【0042】なお、文の終端かどうかは、統計的言語モ
デル2から得られた接続候補に終端記号があるか否かで
判断し、終端記号がある場合には、その終端記号までを
1つの文を文拡散候補として文判定部4に渡す。この文
拡散処理の具体例についてものちに詳細に説明する。
【0043】文判定部4は、文拡散部3から渡された文
拡散候補が、入力された代表文と同じ意味を有するか否
かを判定する。この判定は、文拡散部3から渡された文
拡散候補の文字列と入力された代表文の文字列とをコン
ピュータ上で比較できるようにそれぞれを言い換えたの
ちに、両者の文字列が同じであるか否かを調べ、その結
果を用いて行う。
【0044】すなわち、文拡散部3から渡された文拡散
候補の言い換え後の文字列と入力された代表文の言い換
え後の文字列が同じであれば、文拡散部3から渡された
文拡散候補は、入力された代表文と同じ意味を有すると
判定し、文拡散候補の言い換え後の文字列と代表文の言
い換え後の文字列とが同じでなければ、文拡散部3から
渡された文拡散候補は、入力された代表文と同じ意味で
はないと判定する。
【0045】なお、上述の言い換えを行う技術の例とし
ては、たとえば、論文「佐藤理史、“論文表題を言い換
える”、情報処理学会論文誌、Vol.40、No.7、pp2937-2
945、1999」に記載されている。
【0046】そして、文拡散候補の文字列が代表文の文
字列と同じであると判定された場合は、そのときの文拡
散候補を文拡散結果としてネットワーク文法生成部5に
渡し、文拡散候補の文字列が代表文の文字列と同じでな
いと判定された場合は、それを文拡散部3に通知する。
なお、文拡散候補の文字列が代表文の文字列と同じでな
いと判定され、その判定結果が文拡散部3に通知される
と、文拡散部3では、その文拡散候補を構成する形態素
群のうち、統計的言語モデル2によって取得された形態
素群(接続候補群)をすべて無効とする。
【0047】ネットワーク文法生成部5は、文判定部4
から渡された文拡散結果(代表文と同じ意味を有すると
判定された文拡散結果)を登録テーブル(図示せず)に
登録するとともに、その登録された内容に基づいて、図
5に示すようなネットワーク文法を生成する。
【0048】次に本発明のネットワーク文法生成手順に
ついて、具体例を参照しながら詳細に説明する。
【0049】たとえば、「少し明るくしてください」と
いう代表文が文解析部1に与えられたとする。文解析部
1ではこの代表文を形態素解析し、それによって、その
代表文は、「少し」、「明るく」、「して」、「くださ
い」というような形態素に分割される。
【0050】これら「少し」、「明るく」、「して」、
「ください」といった各形態素は、文拡散部3に与えら
れ、先頭の形態素(この場合「少し」)から順に統計的
言語モデル2を用いた文拡散処理がなされる。この統計
的言語モデル2を用いた文拡散処理について以下に説明
する。なお、ここでは、ある形態素に接続される可能性
の高い順にn個(ここでは3つとする)の接続候補を統
計的言語モデル2から取得してそれをそのその形態素に
接続するものとする。
【0051】ところで、前述したように、ここで用いら
れる統計的言語モデルは、ある特定の技術分野に特化し
た統計的言モデルであって、ある技術分野に関する文献
や、カタログなどを書き起こしたコーパス(テキストデ
ータ)から生成されたものである。たとえば、ここで生
成されるネットワーク文法が音声認識装置に使用される
ような場合、その音声認識装置を用るシステムが、たと
えば、照明の制御システムであれば、それに関する技術
文献やカタログなどを書き起こしたテキストデータから
生成されたものである。
【0052】このように、ある特定の技術分野に特化し
た統計的言語モデルを用いることによって、文拡散処理
を行う際、代表文に対する適切な文拡散結果を効率よく
得ることができる。
【0053】このような統計的言語モデル2を用いた文
拡散処理について説明する。まず、先頭の形態素である
「少し」に注目し、この「少し」に接続される可能性の
高い3つの接続候補として、図2(a)に示すように、
「暗い」、「ください」、「大きい」が統計的言語モデ
ル2から得られたとする。これらは、「少し」という形
態素に対し、「少し暗い」、「少しください」、「少し
大きい」というようにつながるとされたものである。
【0054】そして、これら「暗い」、「ください」、
「大きい」という3つの接続候補に対して、さらに3つ
の接続候補を統計的言語モデル2から取得する。今、
「暗い」という候補に注目すると、この「暗い」に接続
される可能性の高い3つの接続候補として、図2(b)
に示すように、「みたい」、「感じ」、「部屋に」が統
計的言語モデル2から得られたとする。これによって、
ここまでで「少し」という形態素に対し、「少し暗いみ
たい」、「少し暗い感じ」、「少し暗い部屋」というよ
うな形態素列が得られる。
【0055】そしてさらに、ここで得られた「みた
い」、「感じ」、「部屋に」の3つの接続候補に対して
も、これらそれぞれの接続候補に対し、統計的言語モデ
ル2から3つずつの接続候補を取得する。たとえば、
「みたい」に注目すると、この「みたい」に接続可能な
接続候補として、図2(c)に示すように、「(/
s)」、「ですが」、「だ」の3つの候補が取得された
とする。
【0056】これによって、「少し暗いみたい〈/
s〉」、「少し暗いみたいですが」、「少し暗いみたい
だ」というような形態素列が得られる。なお、「みたい
〈/s〉」というように接続候補としての形態素の後に
〈/s〉が付加される場合があるが、この〈/s〉 は終端
記号を表し、その接続候補によって1つの文を終わらせ
ることが可能、つまり、その接続候補までで1つの文が
成立することを意味し、この終端記号があった場合は、
その接続候補を優先して採用するものとする。
【0057】したがって、この場合、「みたい〈/
s〉」」、「みたいですが」、「みたいだ」の中では、
まず、「みたい〈/s〉」を優先して採用する。これによ
って、この場合、「少し」という主形態素に対しては、
「少し暗いみたい〈/s〉」が文拡散部3から文拡散候補
として出力され、それが文判定部4に渡される。
【0058】文判定部4では、文拡散部3から渡された
「少し暗いみたい〈/s〉」という文拡散候補が、代表文
「少し明るくしてください」と同じ意味を有するか否か
を判定するが、この判定は、この文拡散候補と代表文の
それぞれに対し、前述した文の言い換え技術を用いてコ
ンピュータ上で両者の文字列の比較が可能となるように
言い換えたのちに、両者の文字列が同じであるか否かを
調べ、その結果を用いて行う。
【0059】すなわち、文拡散部3から渡された文拡散
候補の文字列と入力された代表文の文字列が同じであれ
ば、文拡散部3から渡された文拡散候補は、入力された
代表文と同じ意味を有すると判定し、文拡散候補の文字
列と代表文の文字列とが同じでなければ、文拡散部3か
ら渡された文拡散候補は、入力された代表文と同じ意味
ではないと判定する。
【0060】このような文判定を行った結果、文拡散部
3から渡された「少し暗いみたい」は、代表文と一致し
ないと判定されるので、文拡散部3から渡された「少し
暗いみたい」は、代表文「少し明るくしてください」と
同じ意味ではないので、文拡散結果として用いることは
できないとする。
【0061】これによって、その判定結果を文拡散部3
に戻し、文拡散部3では、「少し暗いみたい」という形
態素列のうち、統計的言語モデル2によって取得された
形態素群、つまり、「暗い」、「みたい〈/s〉」をすべ
て無効とする。
【0062】続いて、「みたい」に接続可能な形態素と
して取得された「ですが」、「だ」について同様の処理
を行う。これら「ですが」、「だ」のそれぞれの接続候
補に対して、統計的言語モデル2からさらに3つずつの
候補を取得する。たとえば、「ですが」に注目すると、
この「ですが」に接続可能な形態素として、図2(d)
に示すように、「〈/s〉」、「どう」、「どうですか」
の3つの候補が取得されたとする。
【0063】この場合、終端記号の付加された「少し暗
いみたいですが〈/s〉」を優先して採用する。これによ
って、「少し」という主形態素に対しては、「少し暗い
みたいですが〈/s〉」が文拡散部3から文拡散候補とし
て出力され、それが文判定部4に渡される。
【0064】文判定部4では、文拡散部3から渡された
「少し暗いみたいですが」という文拡散候補が、「少し
明るくしてください」という代表文と同じ意味を有する
か否かを前述同様に、これら文拡散候補と代表文のそれ
ぞれに対し、文の言い換え技術を用いて言い換えたのち
に、両者の文字列が同じであるか否かを調べ、その結果
を用いて行う。
【0065】この場合、文拡散部3から渡された「少し
暗いみたいですが〈/s〉」は、代表文と同じ意味でない
と判定されるので、その「少し暗いみたいですが〈/
s〉」は、代表文「少し明るくしてください」に対する
文拡散結果として用いることはできないとする。
【0066】これによって、文判定部4はその判定結果
を文拡散部3に戻し、文拡散部3では、「少し暗いみた
いですが〈/s〉」という形態素列のうち、統計的言語モ
デルによって取得された形態素群つまり、「暗い」、
「みたい」、「ですが〈/s〉」をすべて無効とする。
【0067】続いて、「どう」、「どうですか」につい
ても統計的言語モデル2から接続候補を3つずつ取得
し、「接続候補+〈/s〉」の関係が出現したら、その終
端記号の付加された接続候補を優先的に接続して、文判
定部4で上述したと同様の処理を行う。
【0068】なお、このそれぞれの接続候補に対する文
判定部4における判定結果は、この例では、いずれにし
ても、文拡散部3から得られる文拡散候補は、「少し暗
い・・・」というような形態素列となるので、文の言い
換え技術を用いて言い換えたのちに、両者の文字列が同
じであるか否かを調べ、その結果を用いて、文拡散候補
が代表文と同じ意味であるかを判定すると、いずれの文
拡散候補も代表文と同じ意味ではないと判定される。
【0069】ところで、上述したような再帰的な文拡散
処理において、効率のよい文拡散処理を行うために、再
帰的な文拡散のレベルに上限を設けるようにし、その上
限の文拡散レベルに達したら、それよりあとの文拡散処
理を行わないようにする。これを図3により説明する。
【0070】図3において、A1,A2,A3,・・・
は代表文を文解析して得られた形態素であり、形態素A
1について考えた場合、まず、形態素A1に接続可能な
3つの接続候補A11,A12,A13が第1の文拡散
レベルL1として得られるが、ここでは、接続候補A1
1についてのみに注目して説明する。
【0071】この接続候補A11に対しては、第2の文
拡散レベルL2で、3つの接続候補A21,A22,A
23が得られ、ここで、接続候補A21に注目すると、
この接続候補A21に対する3つの接続候補A31,A
32,A33が第3の文拡散レベルL3として得られ
る。続いて、接続候補A31に注目すると、この接続候
補A31に対する3つの接続候補A41,A42,A4
3が第4の文拡散レベルL4として得られ、続いて、接
続候補A41に注目すると、この接続候補A41に対す
る3つの接続候補A51,A52,A53が第5の文拡
散レベルL5として得られるというような文拡散処理が
行われる。
【0072】このような文拡散処理において、たとえ
ば、文拡散処理のレベルの限度として「L5」が設定さ
れていたとすれば、この図3の例では、第5の文拡散レ
ベルL5において終端記号が現れなければ、その時点
で、文拡散処理を打ち切って、それよりあと、つまり、
この例では、接続候補A51に続く接続候補の取得処理
は行わないようにする。
【0073】なお、このように、この第5の文拡散レベ
ルL5でも終端記号が現れない場合は、1つ前の文拡散
レベル(第4の文拡散レベルL4)に戻って、今度は、
接続候補A42に対する3つ接続候補の取得を第5の文
拡散レベルL5として行い、それでも終端記号が現れな
ければ、接続候補A43に対する3つ接続候補の取得を
第5の文拡散レベルL5として行うというようにする。
そして、それでも、終端記号が現れない場合は、さら
に、文拡散処理のレベルを1つ戻して同様の処理を行
う。
【0074】このように、文拡散レベルに上限を設ける
ことによって、文拡散が無限ループに陥るのを防止する
ことができ、効率の良い文拡散処理を行うことができ
る。
【0075】以上が図2(a)における「暗い」に注目
した処理であるが、この図2(a)における「くださ
い」、「大きい」についても同様の処理を行う。この場
合もこれら「ください」、「大きい」に接続可能な接続
候補が統計的言語モデル2から取得され、「接続候補+
〈/s〉」の関係が出現したら、その終端記号の付加され
た接続候補を接続して、文判定部4で上述したと同様の
処理を行う。
【0076】なお、このそれぞれの接続候補に対する文
判定部4における判定結果は、この例では、いずれにし
ても、文拡散部3から得られる文拡散候補は、「少しく
ださい・・・」や「少し大きい・・・」というような形
態素列となるので、前述同様、文の言い換え技術を用い
て言い換えたのちに、両者の文字列が同じであるか否か
を調べ、その結果を用いて、文拡散候補が代表文と同じ
意味であるかを判定すると、いずれの文拡散候補も代表
文と同じ意味ではないと判定される。
【0077】続いて今度は、代表文の形態素解析結果
「少し」、「明るく」、「して」、「ください」に対し
て、「少し明るく」までを注目し、この「明るく」に接
続可能な3つの接続候補を統計的言語モデル2から取得
する。たとえば、「明るく」に接続可能な形態素とし
て、「(/s)」、「ね」、「しろ」の3つの候補が取得
されたとする。
【0078】これらは、「少し明るく」に対し、「少し
明るく〈/s〉」、「少し明るくね」、「少し明るくし
ろ」というようにつながるとされたものである。この場
合、まず、終端記号の付加された「少し明るく〈/s〉」
を優先して採用する。これによって、「少し明るく〈/
s〉」が文拡散部3から文拡散候補として出力され、そ
れが文判定部4に渡される。
【0079】文判定部4では、文拡散部3から渡された
「少し明るく」という文拡散候補が、代表文「少し明る
くしてください」と同じ意味であるかを判定するが、こ
の場合も前述同様、文拡散候補と代表文のそれぞれに対
し、文の言い換え技術を用いて言い換えたのちに、両者
の文字列が同じであるか否かを調べ、その結果を用い
て、「少し明るく」という文拡散候補が、代表文「少し
明るくしてください」と同じ意味であるかを判定する。
【0080】この場合、文拡散部4から渡された「少し
明るく」は、代表文と同じ意味であると判定されるの
で、文拡散部4から渡された「少し明るく」は、代表文
「少し明るくしてください」に対する適切な文拡散候補
として判定され、その文拡散候補は文拡散結果として出
力される。
【0081】また、「ね」も同様に、この「ね」に接続
可能な形態素として、「〈/s〉」の候補が取得されたと
すると、「少し明るくね〈/s〉」が文拡散部3から出力
され、それが文判定部4に渡される。
【0082】文判定部4では、文拡散部3から渡された
「少し明るくね〈/s〉」という文拡散候補が、代表文
「少し明るくしてください」と同じ意味であるかを判定
するが、この場合も前述同様、文拡散候補と代表文のそ
れぞれに対し、文の言い換え技術を用いて言い換えたの
ちに、両者の文字列が同じであるか否かを調べ、その結
果を用いて、「少し明るくね〈/s〉」という文拡散候補
が、代表文「少し明るくしてください」と同じ意味であ
るかを判定する。
【0083】この場合、文拡散部4から渡された「少し
明るくね〈/s〉」は、代表文と同じ意味であると判定さ
れるので、文拡散部4から渡された「少し明るくね〈/
s〉」は、代表文「少し明るくしてください」に対する
適切な文拡散候補として判定され、その文拡散候補は文
拡散結果として出力される。
【0084】また、「しろ」についても同様の処理を行
う。この「しろ」に接続可能な候補の1つとして終端記
号の付された「しろ〈/s〉」が存在したとすれば、それ
を接続して「少し明るくしろ〈/s〉」が文拡散部3から
出力され、それが文判定部4に渡される。
【0085】文判定部4では、文拡散部3から渡された
「少し明るくしろ〈/s〉」という文拡散候補が、代表文
「少し明るくしてください」と同じ意味であるかを判定
するが、この場合も前述同様、文拡散候補と代表文のそ
れぞれに対し、文の言い換え技術を用いて言い換えたの
ちに、両者の文字列が同じであるか否かを調べ、その結
果を用いて、「少し明るくしろ〈/s〉」という文拡散候
補が、代表文「少し明るくしてください」と同じ意味で
あるかを判定する。
【0086】この場合、文拡散部4から渡された「少し
明るくしろ〈/s〉」は、代表文と同じ意味であると判定
されるので、文拡散部4から渡された「少し明るくしろ
〈/s〉」は、代表文「少し明るくしてください」に対す
る適切な文拡散候補として判定され、その文拡散候補は
文拡散結果として出力される。
【0087】続いて、代表文を形態素解析して得られた
形態素解析結果に対して、「少し明るくして」までを注
目し、「して」の形態素に接続可能な接続候補を統計的
言語モデル2から取得し、「接続候補+〈/s〉」の関係
が出現したら、その終端記号の付加された接続候補を接
続して、文判定部4で上述したと同様の処理を行う。
【0088】さらに続いて、代表文を形態素解析して得
られた形態素解析結果に対して、「少し明るくしてくだ
さい」までを注目し、「ください」の形態素に接続可能
な接続候補を統計的言語モデル2から取得し、「接続候
補+〈/s〉」の関係が出現したら、その終端記号の付加
された接続候補を接続して、文判定部4で上述したと同
様の処理を行う。
【0089】以上のような処理を行うことにより、「少
し明るくしてください」という代表文に対して文判定部
4から、たとえば、図4のような文拡散結果が得られた
とする。
【0090】この図4は、文拡散部3から渡された文拡
散候補と代表文とをそれぞれ言い換えを行ったのちにそ
れぞれの文字列の一致を判定し、その結果、代表文と同
じ意味を有すると判定された文拡散候補群であり、その
文拡散候補群が文拡散結果として出力されたリストの一
例(代表文を含む)であり、この場合、「少し明るくし
てください〈/s〉」の代表文の他に、「少し明るく〈/
s〉」、「少し明るくね〈/s〉」、「少し明るくしろ〈/
s〉」、「少し明るくして〈/s〉」、「少し明るくして
ね〈/s〉」、「少し明るくしてくれ〈/s〉」、「少し明
るくしてちょうだい〈/s〉」、「少し明るくしてくださ
いよ〈/s〉」、「少し明るくしてくださいませ〈/s〉」
などが代表文に対する文拡散結果として得られた例であ
る。この図4で示されるそれぞれの文拡散結果(代表文
を除く)は、代表文とは表現の仕方は異なるが同じ意味
を有するものである。
【0091】次に、ネットワーク文法生成部5はこの図
4で示される文拡散結果のリストを用いて図5に示すよ
うなネットワーク文法を生成する。この図5に示すネッ
トワーク文法は、前述したように、図示の左方向から右
方向(矢印x方向)にそれぞれの形態素をつないで行く
ことにより、「少し明るくしてください」という代表文
に対して、それと同じような意味を有する複数の表現の
仕方、つまり、図4で示される表現をすべて生成するこ
とができる。
【0092】このようなネットワーク文法を用いること
によって、ある代表文に対してそれと同じような意味を
有する様々な表現の仕方を生成することができ、それに
よって生成される表現についてはすべて音声認識可能と
すれば、ユーザはシステムに対して音声コマンドの与え
方の自由度が高まり、使い勝手をよくすることができ
る。
【0093】図6はこのようにして生成されたネットワ
ーク文法を用いた音声認識が可能な音声認識装置の概略
的な構成図であり、音声を入力する音声入力手段21、
この音声入力手段21に入力された音声を特徴分析して
音声認識に必要な特徴データを生成する特徴分析手段2
2と、予め生成されたネットワーク文法によって得られ
るそれぞれの形態素列に対応する言語モデルを記憶する
言語モデル記憶部23、その言語モデル記憶部23に記
憶されたそれぞれ言語モデルに対応する音声を音声認識
する上で必要な音声モデルを記憶する音声モデル記憶部
24と、前記特徴分析手段22で生成された特徴データ
を入力し、言語モデル記憶部23と音声モデル記憶部2
4を参照して入力音声の認識を行う音声認識処理手段2
5と、この音声認識処理部25で認識された結果に基づ
いて機器の動作制御を行う機器動作制御部26などを有
した構成となっている。
【0094】音声認識処理部25は、この音声認識装置
が組み込まれるシステムにおいて使用される幾つかの音
声コマンドに対し、その音声コマンドの表現の仕方を変
えた音声コマンドであっても音声認識を可能とするもの
である。
【0095】すなわち、システムを動作制御させるため
に必要なそれぞれの代表的な音声コマンド(代表音声コ
マンドという)に対して、その代表音声コマンドの表現
の仕方を変えた様々なバリエーションの音声コマンド
を、たとえば、図5のように生成されたネットワーク文
法から得て、そのすべての音声コマンドに対応するそれ
ぞれの言語モデルを作成して、これらの言語モデルにつ
いては全て音声認識を可能するようにしておく。
【0096】たとえば、照明機器の管理を行うシステム
にあっては、照明の明るさを制御するための音声コマン
ド、点灯・消灯を制御するための音声コマンドなど様々
な音声コマンドが考えられるが、これらの音声コマンド
における代表的な音声コマンドに対して生成されたそれ
ぞれのネットワーク文法を前述した方法により作成して
おく。
【0097】一例として、照明の明るさを制御するため
の音声コマンドとしては、前述したように、「少し明る
くしてください」といった代表音声コマンドに対して
は、図5のようなネットワーク文法が生成される。
【0098】また、前述では例に挙げなかったが、点灯
・消灯を制御するための音声コマンドとして、たとえ
ば、照明を消す場合の代表音声コマンドが「消してくだ
さい」であれば、その代表音声コマンドに対して、これ
まで説明したようなネットワーク文法生成処理を行うこ
とで、その代表音声コマンド文と表現の仕方は異なる
が、同じ意味な表現の仕方を得ることのできるネットワ
ーク文法を生成することができ、そのネットワーク文法
から得られる表現の仕方については、音声認識処理部2
5ではすべて認識可能としている。
【0099】このように、システムが受け付け可能な種
々の音声コマンドに対応したそれぞれのネットワーク文
法を予め作成しておき、これらのネットワーク文法から
得られる音声コマンドに対しては、すべて認識可能とす
ることで、ユーザは音声コマンドを様々な表現の仕方で
発することができる。
【0100】たとえば、照明を少し明るくしたい場合
は、「少し明るくしてください」という代表的な音声コ
マンドだけでなく、図4に示すような表現の仕方であれ
ば、どれを用いてもよい。
【0101】一例として、ユーザが「少し明るくして
ね」という音声コマンドを与えたとすると、その音声コ
マンドに対する音声信号が特徴分析部22特徴分析さ
れ、その特徴データが音声認識処理部25に与えられて
音声認識処理されるが、このとき、この音声認識処理部
25は、代表音声コマンドに対するバリエーションの1
つである「少し明るくしてね」についても音声認識可能
となっているので、ユーザの発話した「少し明るくして
ね」を認識し、その認識結果を出力し、それによって、
システムの機器動作制御部26はその認識結果に対応し
た動作、つまり、この場合は、照明の明るさを少し明る
くする動作を行う。
【0102】このように、ユーザがシステムに対して所
定の動作を行わせるための音声コマンドを与える場合、
音声コマンドは1つに限られることなく表現の仕方を変
えても適正に認識されるので、システムに対して音声コ
マンドの与え方の自由度が高まり、使い勝手をよくする
ことができる。
【0103】〔第2の実施の形態〕次に本発明の第2の
実施の形態について説明する。図7は本発明の第2の実
施の形態におけるネットワーク文法生成装置の構成図で
あり、図1で示すネットワーク文法生成装置の構成に対
して、文解析部1の出力側に語順入れ換え部11を設け
た点が異なる。
【0104】この語順入れ換え部11は、文解析部1で
形態素解析されて得られた形態素を様々に入れ換えるも
ので、たとえば、前述同様、代表文が「少し明るくして
ください」であって、この代表文を形態素解析して得ら
れた「少し」、「明るく」、「して」、「ください」を
語順入れ換えした例を幾つか挙げると、図8のように、
「少し 明るく ください して」、「少し して 明
るく ください」、「少し して ください 明る
く」、・・・、「明るく 少し して ください」、
「明るく して ください 少し」、・・・、「して
少し ください 明るく」、「して ください 少し
明るく」、「して ください 明るく 少し」、・・・
などとなる。
【0105】このように、この第2の実施の形態では、
代表文を形態素解析して得られた形態素を語順入れ換え
し、その語順入れ換えして得られたそれぞれの語順入れ
換え例(これを語順入れ換え候補という)について、前
述の第1の実施の形態で説明したように、文拡散処理部
3で文拡散処理を行う。ただし、語順入れ換え候補を全
て用いるのではなく、適切でない語順入れ換え候補は無
効とし、適切な語順入れ換え候補のみを採用し、それを
語順入れ換え結果として出力する。以下、この処理につ
いて説明する。
【0106】語順入れ換え部11で語順の入れ換えがな
された語順入れ換え候補(図8参照)は、文判定部4に
渡され、文判定部4では語順入れ換え候補が、代表文と
同じ意味を有するか否かを判定するが、この判定は、第
1の実施の形態で説明した文拡散結果を代表文と比較す
る際と同様に、文の言い換え技術を用いて両者の文字列
の比較が可能となるような言い換えを行ったのちに行
う。
【0107】すなわち、語順入れ換え候補と代表文のそ
れぞれに対し、前述した文の言い換え技術を用いてコン
ピュータ上で両者の文字列の比較が可能となるような言
い換えたのちに、両者の文字列が同じであるか否かを調
べ、その結果を用いて行う。そして、語順入れ換え候補
の文字列と入力された代表文の文字列が同じであれば、
その語順入れ換え候補は、入力された代表文と同じ意味
を有すると判定し、また、語順入れ換え候補の文字列と
代表文の文字列とが同じでなければ、語順入れ換え候補
は、入力された代表文と同じ意味ではないと判定する。
【0108】この場合、代表文は「少し明るくしてくだ
さい」であり、語順入れ換え候補の一例としては、図8
に示すような内容であるので、これらそれぞれについて
代表文との比較を行った結果、代表文と同じ意味を有す
ると判定された語順入れ換え候補は、「明るくしてくだ
さい少し」、「してください少し明るく」、「してくだ
さい明るく少し」であり、その他は同じ意味ではないと
判断されたとする。なお、この判定結果を図8において
○と×で示し、同じ意味を有すると判定された語順入れ
換え候補を○、同じ意味ではないと判定された語順入れ
換え候補を×で表している。
【0109】これによって、語順入れ換え部11は、代
表文をそのまま形態素解析した結果の他に、語順入れ換
えを行った結果のうち代表文と同じ意味を有すると判定
された語順入れ換え候補のみを語順入れ換え結果とし
て、その語順入れ換え結果を構成する形態素列を文拡散
部4に順次渡す。
【0110】したがって、この例では、「少し明るくし
てください」といった代表文を構成する形態素列「少
し」、「明るく」、「して」、「ください」他に、「明
るくしてください少し」を構成する形態素列「明る
く」、「して」、「ください」、「少し」と、「してく
ださい少し明るく」を構成する形態素列「して」、「く
ださい」、「少し」、「明るく」、さらに、「してくだ
さい明るく少し」を構成する形態素列「して」、「くだ
さい」、「明るく」、「少し」の3通り(合計4通り)
の語順入れ換え結果後のそれぞれの形態素列が文拡散部
4に渡されることになる。
【0111】そして、文拡散部4ではこれら代表文とそ
の代表文に対して語順の入れ換えがなされた3通りの語
順入れ換え結果の合計4通りの表現の仕方それぞれに対
して、統計的言語モデル2を用いた文拡散処理を行う。
この文拡散処理は前述の第1の実施の形態で詳細に説明
したので、ここではその処理については説明を省略す
る。
【0112】そして、たとえば、「明るくしてください
少し」という語順入れ換え結果に対しては、文判定部4
から、「明るくね少しだけ」、「明るくしてね少しだ
け」、「明るくしてちょうだい少し」、・・・など、代
表文と同じ意味を有すると判定された文拡散結果が得ら
れたとすると、これら文拡散結果はネットワーク文法生
成部5に渡され、ネットワーク文法生成部5ではこれら
を保持したのち、保持された文拡散結果を用いてネット
ワーク文法を生成する。
【0113】続いて、「してください少し明るく」や
「してください明るく少し」についてもそれぞれ同様の
処理を行い、「してください少し明るく」、「してくだ
さい明るく少し」に対するそれぞれの文拡散候補のう
ち、代表文と同じ意味を有すると判定された幾つかの適
切な文拡散結果をネットワーク文法生成部5に渡し、ネ
ットワーク文法生成部5ではこれらを保持したのち、保
持された文拡散結果を用いてネットワーク文法を生成す
る。
【0114】このように、この第2の実施の形態では、
1つの代表文に対しその代表文の語順が入れ換えられた
複数の語順入れ換え結果をも用いてそれぞれについて文
拡散処理を行うので、1つの代表文に対して、よりバリ
エーションに富んだネットワーク文法を生成することが
できる。
【0115】このように生成されたネットワーク文法
も、前述した音声認識装置(図6参照)に用いることが
できることは勿論である。この第2の実施の形態によっ
て生成されたネットワーク文法を用いた音声認識装置が
認識可能とする音声コマンドは、代表文を語順入れ換え
したのちに、それぞれの語順入れ換え結果に対して文拡
散が行われ、その文拡散結果を用いて生成されたネット
ワーク文法によって作成されているので、より一層、バ
リエーションに富んだ表現の仕方の音声コマンドも許容
されるので、より使い勝手のよいものとなる。
【0116】これによって、ユーザがシステムに音声コ
マンドを与えるとき、音声コマンドの自由度をより一層
高めることができるので、たとえば、とっさに動作制御
を行うような場合、代表文とは語順が大きく異なった言
い方をしたとしても、適切に音声認識される可能性が高
くなり、より一層、使い勝手に優れたものとなる。
【0117】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の各実施の形態では、統計的言語モデルから2から接
続候補を取得する場合、直前のみの形態素に接続される
可能性の高い接続候補を取得する例で説明した。つま
り、前述の説明で用いた図2の例で言えば、まず、「少
し」に注目し、この「少し」に接続される可能性の高い
3つの接続候補として、図2(a)に示すように、「暗
い」、「ください」、「大きい」が統計的言語モデル2
から得られ、その後、これら「暗い」、「ください」、
「大きい」という3つの接続候補に対して、まず、「暗
い」に接続される可能性の高い3つの接続候補を統計的
言語モデル2から取得するというように、直前のみの形
態素に接続される可能性の高い接続候補を取得するよう
にしたが、この場合、「暗い」の前に存在する「少し」
まで、つまり、その時点までに接続された形態素列まで
を用い「少し暗い」に接続される接続候補を統計的言語
モデル2から取得するようにしてもよい。そして、この
「少し暗い」に接続される可能性の高い接続候補の1つ
として「みたい」が取得されたら、今度は、「少し暗い
みたい」に接続される可能性の高い接続候補を取得す
る。
【0118】このように、それまでに接続された形態素
列に接続される可能性のある接続候補を統計的言語モデ
ル2から取得するようにしてもよく、それによって、適
切な文拡散結果を、より速く得ることができるようにな
る。
【0119】また、前述の各実施の形態においては、統
計的言語モデル2からn個(前述の各実施の形態ではn
=3)の接続候補を取得する例について説明したが、全
ての場合において同数の接続候補を取得しなければなら
ないというものではない。たとえば、図3の例で言え
ば、この図3の例では第1から第5の文拡散レベルL1
〜L5の全ての文拡散レベルにおいて、時計的言語モデ
ル2から3個ずつの接続候補が取得された例が示されて
いるが、ある文拡散レベルでは、統計的言語モデル2か
ら2個あるいは1個の接続候補しか取得できない場合も
ある。したがって、それぞれの文拡散レベルで全て同数
の接続候補が得られるとは限らない。
【0120】また、前述の各実施の形態では、文解析部
1で分割する構成要素の単位を形態素として説明した
が、文節などでもよく、また、複数の形態素の集合であ
ってもよい。
【0121】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。
【0122】
【発明の効果】以上説明したように本発明によれば、あ
る代表文を入力するだけであとはコンピュータ上で、そ
の代表文と意味を同じくする様々な表現の仕方を生成し
てそれを文拡散結果として出力し、その文拡散結果をも
とにネットワーク文法を自動生成することができるの
で、従来のように、ネットワーク生成を行う際に、単語
のカテゴリや属性を記述した文法ルールやそれらの単語
に関する辞書を人手によって作成して用意するといった
人為的な作業を殆ど不要とすることができる。
【0123】また、代表文を解析して構成要素(形態
素)に分割した後に、その構成要素(形態素)を入れ換
える語順入れ換え処理を行ったのちに文拡散処理を行う
ことによって、1つの代表文に対して、よりバリエーシ
ョンに富んだネットワーク文法を生成することができ
る。
【0124】また、本発明の音声認識装置は、上述した
ネットワーク文法生成方法またはネットワーク文法生成
装置によって生成されたネットワーク文法を音声認識処
理に用いて音声認識するようにしているので、たとえ
ば、ユーザが音声コマンドを与えることでその音声コマ
ンドを認識し、その認識結果に基づいた動作制御を行う
ようなシステムにあっては、ユーザがシステムに音声コ
マンドを与えるとき、音声コマンドの自由度を高めるこ
とができるので、表現の仕方を変えても的確に音声認識
される可能性が高くなり、使い勝手に優れたものとな
る。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるネットワー
ク文法生成装置の構成図である。
【図2】本発明の文拡散処理の一例を説明する図であ
る。
【図3】本発明の文拡散処理において文拡散処理のレベ
ルに限度を設定する例について説明する図である。
【図4】本発明の第1の実施の形態において生成された
文拡散候補のなかで文判定部によって代表文に対し同じ
意味を有すると判定されや文拡散結果の一例を示す図で
ある。
【図5】図4で示した文拡散結果によって生成されたネ
ットワーク文法を示す図である。
【図6】本発明によって生成されたネットワーク文法を
用いた音声認識が可能な音声認識装置の概略的な構成図
である。
【図7】本発明の第2の実施の形態におけるネットワー
ク文法生成装置の構成図である。
【図8】第2の実施の形態において代表文を語順入れ換
えした語順入れ換え候補の例を示す図である。
【符号の説明】
1 文解析部 2 統計的言語モデル 3 文拡散部 4 文判定部 5 ネットワーク文法生成部 11 語順入れ換え部 21 音声入力部 22 特徴分析部 23 言語モデル記憶部 24 音声モデル記憶部 25 音声認識処理部 26 機器動作制御部
フロントページの続き (72)発明者 長谷川 浩 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内 Fターム(参考) 5B091 AA15 CA02 CA05 CB12 CC03 CC16 5D015 HH00

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 ある表現をなすための代表的な文例とし
    ての代表文を解析して、その代表文から当該代表文を構
    成する構成要素をそれぞれの構成要素単位に分割する文
    解析工程と、 この文解析工程によって得られたそれぞれの構成要素に
    対し、これらそれぞれの構成要素に接続可能な接続候補
    を、ある構成要素に対する言語連鎖情報が格納された言
    語連鎖情報格納手段から取得し、その取得された接続候
    補を前記構成要素に接続して得られた文字列を文拡散候
    補として出力する文拡散工程と、 この文拡散工程から出力される前記文拡散候補を前記代
    表文と比較し、当該文拡散候補が前記代表文と同じ意味
    を有するとされた場合には、それを文拡散結果として出
    力する文判定工程と、 その文判定工程から出力された文拡散結果を入力し、あ
    る1つの代表文に対して得られた文拡散結果を用いてネ
    ットワーク文法を生成するネットワーク文法生成工程
    と、 を有することを特徴とするネットワーク文法生成方法。
  2. 【請求項2】 前記文拡散工程は、前記文解析工程によ
    って得られた文の並び順に沿ったそれぞれの構成要素に
    対して、まず、最初の構成要素に接続可能な接続候補を
    前記言語連鎖情報格納手段からn1個(n1は正の整
    数)取得して、その取得されたn1個の接続候補のうち
    の1つの接続候補を前記構成要素に接続し、その接続後
    の接続候補に接続可能な接続候補を前記言語連鎖情報格
    納手段からn2個(n2は正の整数)取得して、その取
    得されたn2個の接続候補のうちの1つの接続候補を前
    記接続後の接続候補に接続する処理を、その接続後の文
    字列が1つの文として成立し得るまで再帰的に行い、1
    つの文として成立し得る文字列が得られたら、その文字
    列を文拡散候補として出力し、この再帰的処理を前記n
    1、n2、・・・個の他の接続候補についても行い、そ
    の後、前記文の並びに沿った構成要素の2番目以降の構
    成要素それぞれに対しても、その構成要素に接続可能な
    接続候補を前記言語連鎖情報格納手段からn3個(n3
    は正の整数)取得する処理以降の処理を前記同様に行う
    ことを特徴とする請求項1記載のネットワーク文法生成
    方法。
  3. 【請求項3】 前記代表文を解析する文解析工程の後
    に、この文解析工程によって得られたそれぞれの構成要
    素を入れ換える語順入れ換え工程を設け、この語順入れ
    換え工程によって、前記文解析工程で得られたそれぞれ
    の構成要素を入れ換える語順入れ換え処理を行い、この
    語順入れ換え処理によって得られたそれぞれの語順入れ
    換え結果における構成要素の並びを前記文拡散処理工程
    に渡し、文拡散工程では、この語順入れ換え工程から渡
    されたそれぞれの語順入れ換え結果ごとに、前記した文
    拡散処理を行うことを特徴とする請求項1または2記載
    のネットワーク文法生成方法。
  4. 【請求項4】 前記文解析工程で得られたそれぞれの構
    成要素を入れ換える語順入れ換え処理を行い、この語順
    入れ換え処理によって得られたそれぞれの語順入れ換え
    結果における構成要素の並びを前記文拡散処理工程に渡
    す処理は、 前記語順入れ換え工程によって語順入れ換えされたそれ
    ぞれの結果を語順入れ換え候補として前記文判定工程に
    出力し、この文判定工程によって、それぞれの語順入れ
    換え候補を前記代表文と比較し、当該語順入れ換え候補
    が前記代表文と同じ意味を有するとされた場合には、そ
    れを語順入れ換え結果とし、その語順入れ換え結果にお
    ける構成要素の並びを前記文拡散処理工程に渡す処理が
    含まれること特徴とする請求項3記載のネットワーク文
    法生成方法。
  5. 【請求項5】 前記言語連鎖情報格納手段は、単語連鎖
    確率を用いて作成された統計的言語モデルであることを
    特徴とする請求項1から4のいずれかに記載のネットワ
    ーク文法生成方法。
  6. 【請求項6】 前記言語連鎖情報格納手段に存在する接
    続候補のうち、文の終端となり得る構成要素に対しては
    文の終端となり得ることを示す終端情報をその構成要素
    に対応付けて保存し、この終端情報によって、前記接続
    後の文字列が1つの文として成立し得るか否かを判断す
    ることを特徴とする請求項1から5のいずれか記載のネ
    ットワーク文法生成方法。
  7. 【請求項7】 前記代表文の構成要素は形態素または複
    数の形態素の集合であることを特徴とする請求項1から
    6のいずれかに記載のネットワーク文法生成方法。
  8. 【請求項8】 ある表現をなすための代表的な文例とし
    ての代表文を解析して、その代表文から当該代表文を構
    成する構成要素をそれぞれの構成要素単位に分割する文
    解析手段と、 ある構成要素に対する言語連鎖情報が格納された言語連
    鎖情報格納手段と、 前記文解析手段によって得られたそれぞれの構成要素に
    対し、これらそれぞれの構成要素に接続可能な接続候補
    を、ある構成要素に対する言語連鎖情報が格納された言
    語連鎖情報格納手段から取得し、その取得された接続候
    補を前記構成要素に接続して得られた文字列を文拡散候
    補として出力する文拡散手段と、 この文拡散手段から出力される前記文拡散候補を前記代
    表文と比較し、当該文拡散候補が前記代表文と同じ意味
    を有するとされた場合には、それを文拡散結果として出
    力する文判定手段と、 その文判定工程から出力された文拡散結果を入力し、あ
    る1つの代表文に対して得られた文拡散結果を用いてネ
    ットワーク文法を生成するネットワーク文法生成手段
    と、 を有することを特徴とするネットワーク文法生成装置。
  9. 【請求項9】 前記文拡散手段は、前記文解析手段によ
    って得られた文の並び順に沿ったそれぞれの構成要素に
    対して、まず、最初の構成要素に接続可能な接続候補を
    前記言語連鎖情報格納手段からn1個(n1は正の整
    数)取得して、その取得されたn1個の接続候補のうち
    の1つの接続候補を前記構成要素に接続し、その接続後
    の接続候補に接続可能な接続候補を前記言語連鎖情報格
    納手段からn2個(n2は正の整数)取得して、その取
    得されたn2個の接続候補のうちの1つの接続候補を前
    記接続後の接続候補に接続する処理を、その接続後の文
    字列が1つの文として成立し得るまで再帰的に行い、1
    つの文として成立し得る文字列が得られたら、その文字
    列を文拡散候補として出力し、この再帰的処理を前記n
    1、n2、・・・個の他の接続候補についても行い、そ
    の後、前記文の並びに沿った構成要素の2番目以降の構
    成要素それぞれに対しても、その構成要素に接続可能な
    接続候補を前記言語連鎖情報格納手段からn3個(n3
    は正の整数)取得する処理以降の処理を前記同様に行う
    ことを特徴とする請求項8記載のネットワーク文法生成
    装置。
  10. 【請求項10】 前記代表文を解析する文解析手段の出
    力側に、この文解析手段によって得られたそれぞれの構
    成要素を入れ換える語順入れ換え手段を設け、この語順
    入れ換え手段によって、前記文解析手段で得られたそれ
    ぞれの構成要素を入れ換える語順入れ換え処理を行い、
    この語順入れ換え処理によって得られたそれぞれの語順
    入れ換え結果における構成要素の並びを前記文拡散処理
    手段に渡し、文拡散手段では、この語順入れ換え工程か
    ら渡されたそれぞれの語順入れ換え結果ごとに、前記し
    た文拡散処理を行うことを特徴とする請求項8または9
    記載のネットワーク文法生成装置。
  11. 【請求項11】 前記文解析手段で得られたそれぞれの
    構成要素を入れ換える語順入れ換え処理を行い、この語
    順入れ換え処理によって得られたそれぞれの語順入れ換
    え結果における構成要素の並びを前記文拡散処理手段に
    渡す処理は、 前記語順入れ換え手段によって語順入れ換えされたそれ
    ぞれの結果を語順入れ換え候補として前記文判定手段に
    出力し、この文判定手段によって、それぞれの語順入れ
    換え候補を前記代表文と比較し、当該語順入れ換え候補
    が前記代表文と同じ意味を有するとされた場合には、そ
    れを語順入れ換え結果とし、その語順入れ換え結果にお
    ける構成要素の並びを前記文拡散処理手段に渡す処理が
    含まれること特徴とする請求項10記載のネットワーク
    文法生成装置。
  12. 【請求項12】 前記言語連鎖情報格納手段は、単語連
    鎖確率を用いて作成された統計的言語モデルであること
    を特徴とする請求項8から11のいずれかに記載のネッ
    トワーク文法生成装置。
  13. 【請求項13】 前記言語連鎖情報格納手段に存在する
    構成要素のうち、文の終端となり得る構成要素に対して
    は文の終端となり得ることを示す終端情報をその構成要
    素に対応付けて保存し、この終端情報によって、前記接
    続後の文字列が1つの文として成立し得るか否かを判断
    することを特徴とする請求項8から12のいずれかに記
    載のネットワーク文法生成装置。
  14. 【請求項14】 前記代表文の構成要素は形態素または
    複数の形態素の集合であることを特徴とする請求項8か
    ら13のいずれかに記載のネットワーク文法生成装置。
  15. 【請求項15】 音声を入力する音声入力手段と、この
    音声入力手段に入力された音声を特徴分析して音声認識
    に必要な特徴データを生成する特徴分析手段と、予め生
    成されたネットワーク文法によって得られるそれぞれの
    文字列に対応する言語モデルを記憶する言語モデル記憶
    手段と、この言語モデル記憶手段に記憶されたそれぞれ
    言語モデルに対応する音声を音声認識する上で必要な音
    声モデルを記憶する音声モデル記憶手段と、前記特徴分
    析手段で生成された特徴データを入力し、前記言語モデ
    ル記憶手段と音声モデル記憶手段を参照して入力音声の
    認識を行う音声認識処理手段とを有し、 前記ネットワーク文法は、前記請求項1から7のいずれ
    かに記載のネットワーク文法生成方法または前記請求項
    に8から14のいずれかに記載のネットワーク文法生成
    装置によって生成されたネットワーク文法であることを
    特徴とする音声認識装置。
JP2002040730A 2002-02-18 2002-02-18 ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置 Pending JP2003242147A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002040730A JP2003242147A (ja) 2002-02-18 2002-02-18 ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002040730A JP2003242147A (ja) 2002-02-18 2002-02-18 ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置

Publications (2)

Publication Number Publication Date
JP2003242147A true JP2003242147A (ja) 2003-08-29
JP2003242147A5 JP2003242147A5 (ja) 2005-08-25

Family

ID=27781386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002040730A Pending JP2003242147A (ja) 2002-02-18 2002-02-18 ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置

Country Status (1)

Country Link
JP (1) JP2003242147A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
JP2009521718A (ja) * 2005-12-22 2009-06-04 本田技研工業株式会社 分散収集された知識を用いる自動文法生成
JP2014215396A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7698137B2 (en) 2003-06-30 2010-04-13 Nuance Communications, Inc. Speech recognition device using statistical language model
JP2009521718A (ja) * 2005-12-22 2009-06-04 本田技研工業株式会社 分散収集された知識を用いる自動文法生成
JP2014215396A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法

Similar Documents

Publication Publication Date Title
Black et al. Statistically-driven computer grammars of English: The IBM/Lancaster approach
Minnen et al. Applied morphological processing of English
Steriade The phonology of perceptibility effects: The P-map and its consequences for constraint organization
EP1143415B1 (en) Generation of multiple proper name pronunciations for speech recognition
US20070100619A1 (en) Key usage and text marking in the context of a combined predictive text and speech recognition system
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
EP1473707B1 (en) Text-to-speech conversion system and method having function of providing additional information
CN112352275A (zh) 具有多级别文本信息的神经文本到语音合成
US10565982B2 (en) Training data optimization in a service computing system for voice enablement of applications
JP5625827B2 (ja) 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム
US10553203B2 (en) Training data optimization for voice enablement of applications
JP2011003218A (ja) 声調を用いて中国語を検索する方法及びその方法を実行するシステム
JP5323652B2 (ja) 類似語決定方法およびシステム
JP2007052043A (ja) 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
JP2003242147A (ja) ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置
US20230069113A1 (en) Text Summarization Method and Text Summarization System
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
Darling et al. Towards coreference resolution for Early Irish
JPH11344998A (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP2003288098A (ja) ディクテーション装置、方法及びプログラム
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法
CN108228191B (zh) 语法编译系统以及语法编译方法
JP2009163109A (ja) 言語モデル生成装置及び音声認識装置
TW200532648A (en) Method and system for inputting Chinese character

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050218

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071030