JP3955880B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3955880B2
JP3955880B2 JP2006547696A JP2006547696A JP3955880B2 JP 3955880 B2 JP3955880 B2 JP 3955880B2 JP 2006547696 A JP2006547696 A JP 2006547696A JP 2006547696 A JP2006547696 A JP 2006547696A JP 3955880 B2 JP3955880 B2 JP 3955880B2
Authority
JP
Japan
Prior art keywords
word
language model
appearance probability
acquired
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006547696A
Other languages
English (en)
Other versions
JPWO2006059451A1 (ja
Inventor
剛男 大野
誠 西崎
伸一 芳澤
哲 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP3955880B2 publication Critical patent/JP3955880B2/ja
Publication of JPWO2006059451A1 publication Critical patent/JPWO2006059451A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、発声入力された音声信号を認識し、この認識結果を出力する音声認識装置に関するものである。
近年、カーナビゲーションやデジタルテレビなどの情報機器が扱う情報量が急激に増加しつつある。例えば、カーナビゲーション装置が参照する地図データベースには、より広範囲の地域の地名や施設名などに関する情報が記録され、また、デジタルテレビのEPG(電子番組ガイド)には、より多くのチャンネルの番組に関して、番組名や出演者名などの詳細な番組情報が配信されるようになってきており、これらの情報を検索する際のインターフェイス手段として、音声認識技術が注目されている。
しかしながら、地名や施設名、番組名や出演者名といった語彙を単語辞書に記憶し、これら語彙を認識対象とする音声認識装置においては、認識対象語彙数が増加すると、認識率が低下してしまうという課題がある。また、これら認識対象語彙を、通信手段を通じて獲得し、これを認識辞書に記憶する音声認識装置においては、記憶した語彙数が認識辞書の記憶容量限界に達してしまった場合、その後新たな認識語彙を獲得、記憶することが不可能になるという課題がある。
このような課題を解決するものとして、従来、様々な技術が提案されている(例えば、特許文献1、特許文献2)。図8は、特許文献1に記載の第一の従来技術の構成を示すものであり、EPG(電子番組表)の操作に応用した音声認識装置に関するものである。図8に示すとおり、従来の音声認識装置では、EPG受信部5で受信したEPGデータを項目分類部6で項目ごとに分類した後に、読み取得部7が漢字かな変換部15を参照して読みを取得し、辞書更新部8が言葉と読みとを対にして辞書9に登録するとともに、登録語削除部14が、例えば前日までに登録された古い登録データを削除する。以上のような処理により、新たにEPGデータに登場した言葉(新番組、新出演者など)の辞書登録と、辞書登録後あらかじめ定めされた時間が経過した辞書項目の削除を行うことで、認識辞書に記憶される語彙数が増加して認識率が低下することを防ぎつつ、かつ、辞書に記録されたデータの量が限界以上に増大しオーバーフローすることを防止しながら、最新のEPGデータを反映した辞書を利用した音声認識処理を可能としている。
また、特許文献2記載の第二の従来技術は、車載用ナビゲーション装置における地名検索に音声認識装置を応用したものであり、道路沿いに設置された交通情報送信手段(いわゆるビーコン)から送信される交通情報を利用して地名認識を行う構成としている。より具体的には、自車現在位置近くの交通情報送信手段を通じて取得された交通情報から、自車現在位置付近の地名(例えば町名、交差点名、路線名、駅名、主要構造物名等)を表す単語を抽出し、これを現時点の認識対象語彙としている。交通情報送信手段は、個々の設置位置付近の地名情報を詳細に提供するものであるため、車両走行によりユーザが移動し現在位置が変化すると、交通情報を受信する交通情報送信手段も現在位置付近のものに更新され、これから受信する交通情報も最新の現在位置に対応した地名情報を含むものとなる。以上の構成により、認識辞書に記憶される語彙数が増加して認識率が低下することを防ぎつつ、常に現在位置付近の地名を認識対象語彙とすることが可能な音声認識装置を実現している。
特開平2001−22374号公報 特許第3283359号公報
しかしながら、上記第一の従来技術では、辞書登録後あらかじめ定めされた時間が経過した時点で辞書項目の削除を行うため、削除時刻の直前まで認識可能であった番組名や出演者名などの語彙が削除時刻を過ぎると突然認識不可能となってしまう。このため、ユーザである発話者が認識装置内部での辞書項目の削除処理を認知できない場合には、ユーザはなぜ直前まで認識できていた語彙が突然認識不可能になってしまうのかを理解できず、認識装置の不可解な動作に対して違和感を覚えてしまうという課題を有している。
また、上記第二の従来技術では、自車走行による現在位置の移動にともない交通情報送信手段が切替わり、これを境に交通情報から抽出される地名語彙も切替わるため、それまで認識可能であった町名や主要構造物名等の地名が突然認識できなくなってしまい、上記第一の従来技術の場合と同様に、認識装置の不可解な動作に対してユーザが違和感を覚えてしまうという課題を有している。
つまり、第一の従来技術、第二の従来技術ともに、認識対象語彙数の増加による認識率低下を防止することを目的とし、認識対象語彙に対する制限処理を行った結果、ある時点まで認識できていた語彙が突然認識できなくなるという、ユーザにとって不可解な動作を音声認識装置が行うため、ユーザの音声認識装置に対する違和感が増加し、これが著しく増加した場合、最終的にユーザが音声認識装置の使用を諦めてしまい、音声認識装置の利点を享受できないという課題を有している。
本発明は、上記従来の課題を解決するもので、地名や施設名、番組名や出演者名といった語彙を認識対象語彙とする音声認識装置であって、これら認識対象語彙に適正な制限を加えつつ、制限処理に起因するユーザの違和感を取除くことのできる音声認識装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声認識装置は、音声信号を認識し、認識した結果を出力する音声認識装置であって、単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段と、入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識手段と、外部から単語を取得する単語取得手段と、前記単語取得手段によって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整手段とを備え、前記認識手段は、前記言語モデル調整手段によって調整された言語モデルを用いて前記単語又は単語列を特定することを特徴とする。これによって、時間の経過に従って単語の出現確率を連続的に変化させることが可能となり、認識対象語彙に適正な制限を加えつつ、直前まで認識されていた単語がある時期を境に突然認識されなくなってしまうという不具合が回避される。
より詳しくは、前記単語取得手段は、前記単語とともに、当該単語に付帯する事項を示す単語付帯情報を取得し、前記言語モデル調整手段は、単語付帯情報ごとに、単語が取得されてからの経過時間に伴って単語の出現確率がどのように変化するかを示す単語出現確率時間特性を格納している単語出現確率時間特性格納部と、前記単語取得手段によって取得された単語と単語付帯情報とを対応づけて記憶する単語記憶部と、前記単語取得手段によって単語が取得されてからの経過時間を単語ごとに計測する経過時間計測部と、前記単語記憶部に記憶されている単語について、当該単語の単語付帯情報に対応する単語出現確率時間特性を前記単語出現確率時間特性格納部に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて前記経過時間計測部によって計測された当該単語の経過時間に対応する単語の出現確率を特定し、特定した出現確率を用いて前記言語モデルを調整する調整部とを有する構成とすることができる。
なお、前記言語モデルとしては、例えば、Nグラム言語モデルであり、前記調整部は、特定した前記単語の出現確率を、Nグラム言語モデルにおける当該単語の出現確率を導出するパラメータとして前記言語モデル格納手段に登録することによって、前記言語モデルを調整してもよい。例えば、経過時間に対応して特定された単語の出現確率をユニグラム値として反映する方法が考えられる。
また、前記単語取得手段は、前記単語の意味カテゴリーを示す情報を前記単語付帯情報として取得し、前記言語モデル調整手段は、前記単語付帯情報が示す意味カテゴリーごとに、前記言語モデルにおける前記出現確率を変化させてもよい。同様に、前記単語取得手段は、前記単語がいずれの場所で取得されたか示す情報を前記単語付帯情報として取得し、前記言語モデル調整手段は、前記単語付帯情報が示す単語取得場所ごとに、前記言語モデルにおける前記出現確率を変化させてもよい。これによって、意味カテゴリーや単語取得場所ごとに、短期間だけ使用される流行に敏感な単語や、比較的長期間に渡って継続的に使用される単語等が分類され、単語の性質や取得場所に則した単語出現確率時間特性が用いられるので、より現実を反映した言語モデルの調整が可能となる。
また、前記音声認識装置はさらに、当該音声認識装置の外から単語出現確率時間特性を取得し、取得した単語出現確率時間特性を前記単語出現確率時間特性格納部に格納する単語出現確率時間特性取得手段を備えてもよい。これによって、それまで使用してきた単語出現確率時間特性をより的確なものに更新したり、より緻密に分類した単語出現確率時間特性を使用して言語モデルを調整することが可能となり、より自然な音声認識が実現される。
また、前記調整部は、特定した前記単語の出現確率が一定のしきい値よりも小さい場合に、前記単語記憶部に記憶されている前記単語、前記単語の単語付帯情報、前記経過時間計測部に保持されている前記単語の経過時間、及び、前記言語モデル格納手段に格納されている前記単語の言語モデルのいずれか、又は全てを削除してもよい。これによって、ほとんど使用されなくなった単語が各種記憶部から削除され、不要な単語で記憶部の記憶スペースが圧迫されてしまうという不具合の発生が回避される。
また、前記言語モデルにおける前記出現確率の変化は、経過時間に伴って滑らかに変化する(例えば、減少する)曲線であってもよいし、一定の経過時間後に単語の出現確率が最大となる曲線であってもよい。これによって、時間の経過に伴って単語の出現確率が連続的に変化することが確保され、認識対象語彙に適正な制限を加えつつ、制限処理に起因するユーザの違和感を取除くことができる。
なお、本発明は、このような音声認識装置として実現することができるだけでなく、音声認識方法として実現したり、コンピュータに音声認識方法を実行させるプログラムとして実現したり、そのプログラムを記録したCD−ROM等の記録媒体として実現することもできる。
本発明の音声認識装置によれば、取得単語の付帯情報に応じて言語モデルの単語出現確率を時間経過にしたがい連続的に調整することができ、認識対象語彙に適正な制限を加えつつ、制限処理に起因するユーザの違和感を取除くことのできる音声認識結果を提供することができる。
よって、本発明は、特に、認識辞書が肥大化しやすい流行に敏感なデジタルテレビ用の音声認識装置やファッション用品を販売する店舗における音声認識装置等として、その実用的価値は極めて高い。
以下、本発明の実施の形態について、図を参照しながら説明する。
(実施の形態1)
まず、本発明の実施の形態1に係る音声認識装置について、図1〜5を用いて説明する。実施の形態1における音声認識装置は、例えば、ユーザが携帯する情報端末に内蔵され、ユーザが店舗にて買い物を行う際の情報検索や音声通訳などの用途に応用され、ユーザが所望の商品に関する問合せを行う発声を認識する。この音声認識装置は、無線通信等によって、言語モデルの調整対象とする単語を外部から取得する。取得単語としては、各店舗にて扱う商品の商品名、ブランド名などが想定され、例えば、ユーザが店舗に入ったときに、その店舗に設置された情報提供サーバから無線通信等によってユーザの情報端末に提供される。
図1は、本発明の実施の形態1における音声認識装置の構成図である。図1に示すように、本実施の形態1に係る音声認識装置100は、認識対象語彙における言語モデルの単語出現確率を時間経過とともに連続的に調整することが可能な音声認識装置であり、音響特徴量抽出部101、照合部102、音響モデル格納部103、言語モデル格納部104、取得単語信号受信解析部105、単語出現確率時間特性格納部106、取得単語語彙記憶部107、取得単語付帯情報記憶部108、取得後経過時間計測部109、言語モデル調整部110を備える。
音響特徴量抽出部101は、音声認識装置100に入力された音声信号から、その特徴を表す音響特徴量を抽出し、照合部102に送る。この音響特徴量抽出部101は、例えば、音声信号を集音するマイクロフォンと、これをサンプリング周波数12kHz、A/D変換精度16Bitの精度でデジタル信号に変換するA/D変換器と、入力音声のデジタル信号から音声の特徴を表現するスペクトルやケプストラムなどの音響的特徴量を計算する音響特徴計算部から構成される。音響特徴計算部による計算方法としては、例えば、MFCC分析手法などが考えられ、音響特徴量抽出部101により抽出される音響特徴量としては、16次のMFCC係数と16次のΔMFCC係数と1次のΔパワーによって構成される音響的特徴量などが用いられる。
音響モデル格納部103は、音響モデル、つまり、単語などの音声の単位ごとにあらかじめ用意された音声のパターンを示すデータをあらかじめ格納しているメモリ等である。格納される音響モデルとしては、一般に音声認識で用いられているHMMモデル(隠れマルコフモデル)を利用することができ、例えば、音韻ごとに3状態Left―to―right型4混合連続分布HMMモデルをあらかじめ学習用音声データから学習し、音響モデル格納部103に格納しておく。
言語モデル格納部104は、言語モデル、つまり、文を構成する単語の並び等の言語的な特徴を示すデータをあらかじめ格納しているメモリ等である。たとえば、単語又は単語列ごとの出現確率を示す言語モデルを格納している。言語モデルとしては、単語の生起をN−1重マルコフ過程で近似したNグラム(N−gram)言語モデルである、ユニグラム(uni−gram)、バイグラム(bi−gram)、トライグラム(tri−gram)などとすることができる。なお、ここで説明したHMMに基づく音響モデルとNグラムに基づく言語モデルによる音声認識処理手法としては、公知の音声認識処理手法を用いることができる(例えば、鹿野清宏、中村哲、伊勢史郎「音声・音情報のディジタル信号処理」昭晃堂、pp.63−121、1997年11月 参照)。
照合部102は、音響特徴量抽出部101で抽出された音響特徴量と、音響モデル格納部103に格納された音響モデルおよび言語モデル格納部104に格納された言語モデルとを照合することにより、最も類似性の高い単語、もしくは、単語系列を音声認識結果として出力する。たとえば、音響モデル格納部103に格納された音響モデルから特定される確率と、言語モデル格納部104に格納された言語モデルから特定される確率との積が最も高い単語又は単語系列を認識結果として出力する。
取得単語信号受信解析部105は、外部から単語を取得する処理部であり、具体的には、音声認識装置100の外部から、取得単語の語彙とその単語に関する付帯情報を含んだ取得単語信号を受信し、これを解析する。例えば、各店舗内に設置された光ビーコン情報送信装置から取得単語信号が送信される場合、取得単語信号受信解析部105における受信機能は、光ビーコン情報受信装置により実現することができる。この取得単語信号受信解析部105は、取得単語信号を受信後、信号の解析により取得単語語彙と、取得した単語の意味カテゴリーや取得場所などの情報を含む取得単語付帯情報とを抽出する。ここで、取得単語は、ユーザが立寄った店舗が洋品店であれば、洋品店での買い物に関連した単語であり、例えば、取得単語語彙は、「マルフローレン」「タムソナイト」「フェラガメ」など、洋品店で扱う商品のうち特に伝統的な老舗ブランド名であり、これらの単語に対応した取得単語付帯情報は、取得した単語は「『意味カテゴリー』が『老舗洋品ブランド名』」であるという情報である。この取得単語信号受信解析部105は、取得単語信号の受信解析後、抽出した取得単語語彙と取得単語付帯情報を、それぞれ取得単語語彙記憶部107と取得単語付帯情報記憶部108に格納する。さらに、この取得単語信号受信解析部105は、取得単語信号受信時、単語取得時刻を表す単語取得時刻信号を取得後、経過時間計測部109に送る。取得後経過時間計測部109は、単語取得時刻信号に基づきその後の経過時間の計測を行い、取得後経過時間として保持する。
図2は、取得単語語彙記憶部107に記憶される取得単語語彙、取得単語付帯情報記憶部108に記録される取得単語付帯情報、ならびに、取得後経過時間計測部109にて計測、保持される取得後経過時間の一例を具体的に示している。ここで、個々の語彙に対応した取得単語付帯情報と経過時間は、語彙ごとに割当てられた取得単語ID番号を介するなどして、取得単語語彙と関連付けられて記憶されており、例えば、取得単語ID番号「1」に対応した取得単語語彙、取得単語付帯情報、取得後経過時間は、それぞれ、「マルフローレン」「意味カテゴリー:老舗洋品ブランド名」「30日8時間15分」である。取得単語信号受信解析部105を通じて取得された他の単語についても、同様に、取得単語語彙、取得単語付帯情報、取得後経過時間が関連付けられ、それぞれ、取得単語語彙記憶部107、取得単語付帯情報記憶部108および取得後経過時間計測部109に記憶、保持されている。
単語出現確率時間特性格納部106は、あらかじめ取得単語付帯情報ごとの単語出現確率時間特性を示す情報を格納しているメモリ等である。図3は、この単語出現確率時間特性格納部に格納されている単語出現確率時間特性の一例を示している。単語出現確率時間特性は、意味カテゴリーごとに定義され、単語出現確率と取得後経過時間との関係を示し、例えば、単語出現確率が単語取得後の経過時間に伴って減少する直線あるいは滑らかな曲線等である。例えば、洋品ブランド、特にいわゆる老舗ブランドと呼ばれる伝統的な老舗ブランド名に属する単語は、取得後も比較的長期に渡って継続的に発話される単語であるため、取得単語付帯情報「意味カテゴリー:老舗洋品ブランド名」に属する単語語彙の単語出現確率時間特性は、取得後経過時間への依存性が低く、なだらかに減衰する特性となっている。一方、楽曲名、特にある特定の週の音楽CD売上枚数などから定義される週間ヒット曲名に属する単語は、取得後数週間後には急激に発話頻度が低下する単語であるため、取得単語付帯情報「意味カテゴリー:週間ヒット曲名」に属する単語語彙の単語出現確率時間特性は、取得後経過時間への依存性が高く、取得後数週間で急激に減衰する特性となっている。ここで、各意味カテゴリーごとの単語出現確率時間特性の設定方法としては、例えば、同種のカテゴリーに属する商品の販売量が過去にどのような時間経過特性をもって推移したかの統計を参照することによって設定することができる。
言語モデル調整部110は、単語取得後の経過時間に伴って言語モデルにおける単語又は単語列の出現確率を変化させることによって言語モデルを調整する処理部であり、より詳しくは、取得単語語彙記憶部107に記憶される取得単語語彙と、取得単語語彙に対応して取得単語付帯情報記憶部108に記憶される取得単語付帯情報と、取得単語語彙に対応して取得後経過時間計測部109で計測される取得後経過時間と、取得単語付帯情報に対応して単語出現確率時間特性格納部106に格納される単語出現確率時間特性とから、該当単語の単語出現確率を獲得し、獲得した単語出現確率をもとに、該当単語に関連する言語モデルを調整する。つまり、取得単語語彙記憶部107に記憶されている取得単語語彙について、その取得単語付帯情報に対応する単語出現確率時間特性を単語出現確率時間特性格納部106に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて取得後経過時間計測部109によって計測された経過時間に対応する単語出現確率を特定し、特定した単語出現確率を用いて言語モデルを調整する。本実施の形態においては、単語出現確率時間特性格納部106には、図3に示されるように、単語出現確率が単語取得後の経過時間に伴って減少するような特性が格納されているので、この言語モデル調整部110は、単語取得後の経過時間に伴って単語出現確率が減少するように変化させることで言語モデルを調整する。
なお、請求の範囲における構成要素と本実施の形態における構成要素との対応は次の通りである。つまり、請求の範囲における言語モデル格納手段は、音響モデル格納部103に対応し、認識手段は、音響特徴量抽出部101、照合部102及び音響モデル格納部103を併せたものに対応し、単語取得手段は、取得単語信号受信解析部105に対応し、言語モデル調整手段は、単語出現確率時間特性格納部106、取得単語語彙記憶部107、取得単語付帯情報記憶部108、取得後経過時間計測部109及び言語モデル調整部110を併せたものに対応する。
次に、以上のように構成された本実施の形態における音声認識装置100の動作について説明する。
図4は、音声認識装置100の言語モデル調整部110による言語モデル調整の処理動作を示すフローチャートである。まず、言語モデル調整部110は、取得単語語彙記憶部107から特定の取得単語語彙を獲得し(S401)、該当の取得単語語彙に対応した取得単語付帯情報を取得単語付帯情報記憶部108から獲得し(S402)、獲得した取得単語付帯情報から、単語出現確率時間特性格納部106に格納されている単語出現確率時間特性のうち、いずれの時間特性を参照したらよいかを決定する(S403)。たとえば、獲得した取得単語付帯情報が示す意味カテゴリーに対応する単語出現確率時間特性を特定する。
さらに、言語モデル調整部110は、該当の取得単語語彙に対応した取得後経過時間を取得後経過時間計測部109から獲得し(S404)、先に決定した単語出現確率時間特性上、獲得した取得語彙経過時間における単語出現確率を、該当の取得単語語彙の現在時刻における単語出現確率値として定める(S405)。言語モデル調整部110は、取得単語語彙記憶部107に記憶されるその他の必要な全ての取得単語語彙についても同様の処理を行い、それぞれの取得単語語彙の現在時刻における単語出現確率値を定める(S406)。
そして、言語モデル調整部110は、単語出現確率をもとに、音声認識処理に用いられる言語モデルを調節する(S407)。つまり、言語モデル調整部110は、対象となっている取得単語語彙について、いま特定した単語出現確率で音声認識が行われることとなるように、言語モデルのパラメータを決定する。言語モデルの具体的な調節処理方法としては、例えば、単語の生起をN−1重マルコフ過程で近似したNグラム言語モデルのうち、N=1の場合のユ二グラムを単語出現確率から計算する方法などが考えられる。なお、ここで説明したNグラム言語モデルの生成方法については、公知の生成方法を用いることができる(例えば、北研二、中村哲、永田昌明「音声言語処理」森北出版pp.27−37、1996年11月 参照)。
最後に、言語モデル調整部110は、取得単語語彙の現在時刻における単語出現確率値から該当の単語に関連した言語モデルを調整した後、これを言語モデル格納部104に送り格納する(S408)。
このようにして調整された言語モデルが言語モデル格納部104に格納された以降においては、照合部102によって、調整後の言語モデルを用いた照合、つまり、調整後の言語モデルを用いた音声認識が行われる。これによって、新規に取得された単語については、取得後の経過時間を反映した音声認識が行われ、ユーザに違和感を与えることがない自然な音声認識が実現される。
次に、言語モデル調整部110による言語モデルの調整の具体例について説明する。ここでは、言語モデルとしてNグラムモデルを用いた場合の例を示す。
(1)第一の調整例は、言語モデル調整部110が特定した単語出現確率をNグラム言語モデルにおけるユニグラム値(確率)として用いる例である。
いま、w1、w2、・・、wnをそれぞれ単語とし、P(w12・・・wn)を単語列w12・・・wn(言語表現)の出現確率とすると、ユニグラムモデルでは、例えば、言語表現「これはマルフローレンですか」の出現確率P(これはマルフローレンですか)は、以下のような単語ごとの出現確率(ユニグラム値)の積で表される。
P(これはマルフローレンですか)=P(これ)P(は)P(マルフローレン)P(です)P(か)
この第一の調整例では、言語モデル調整部110が特定した「マルフローレン」の単語出現確率を上記ユニグラム値P(マルフローレン)として言語モデル格納部104に格納する。
(2)第二の調整例は、言語モデル調整部110が特定した単語出現確率をバイグラム、あるいは、より高次のNグラム推定のための線形補間として用いる例である。
バイグラムモデルでは、例えば、言語表現「これはマルフローレンですか」の出現確率P(これはマルフローレンですか)は、以下のような2つの連続する単語の出現確率(バイグラム値)の積で表される。
P(これはマルフローレンですか)=P(これ|"文頭")P(は|これ)P(マルフローレン|は)P(です|マルフローレン)P(か|です)
なお、P(これ|"文頭")は、文頭に単語「これ」が出現する確率を示し、P(は|これ)は、単語「これ」に続いて単語「は」が出現する確率を示し、P(マルフローレン|は)は、単語「は」に続いて単語「マルフローレン」が出現する確率を示す(以下、同様)。
一般に、Nグラムモデルでは、P(w12・・・wn)の推定をする場合に、下記の近似を行う。
Figure 0003955880

ここで、N=1の場合がユニグラムモデル、N=2の場合がバイグラムモデル、N=3の場合がトライグラムモデルに相当する。
上記Nグラムモデルを学習サンプルから推定する際、学習サンプル中に現れる該当単語を含むサンプル表現が少ない場合などに、Nグラム値の推定精度の向上を目的に、以下の式に示されるように、Nグラム値を、低次のMグラム値(M<N)を用いて線形補間することがある。
Figure 0003955880

ここで、上記式における左辺は、単語wnのNグラム値であり、右辺の第1項は、実際のサンプルデータから推定されたNグラム値に混合係数λ(0≦λ≦1)を乗じた値であり、右辺の第2項は、(N−1)グラム値に混合係数(1−λ)を乗じた値である。
たとえば、バイグラム値をユニグラム値で線形補間する場合は、以下の近似式を用いる。
Figure 0003955880

この第二の調整例では、上記式におけるユニグラム値P(wn)として、言語モデル調整部110が特定した単語出現確率を用いる。これによって、バイグラム、あるいは、より高次のNグラムモデルに対応した言語モデルの調整が可能となる。
(3)第三の調整例は、言語モデル調整部110が特定した単語出現確率をNグラムクラスモデルにおけるクラスに属する語彙の単語出現確率として用いる調整例である。
ここで、Nグラムクラスモデルとは、Nグラムモデルにクラス(単語クラス)という概念を導入したモデルの総称である。クラスとしては、品詞や、単語をその意味カテゴリーごとに分類した単語集合などがある。いま、単語wnの属するクラスをcnとするとき、Nグラムクラスモデルは次式で定義される。
Figure 0003955880


ここで、上記式における左辺は、単語wnのNグラム値であり、右辺の第1項は、単語wnがクラスcnから生起される確率であり、下記式に示されるように、学習データ中に単語wnが出現した回数C(wn)をクラスcnの単語が出現した回数C(cn)で除した値であり、右辺の第2項は、クラスを対象としたNグラム値である。
Figure 0003955880

この第三の調整例では、言語モデル調整部110は、特定した単語出現確率をそのクラスに属する語彙の単語出現確率値と相対化することによって上記確率P(wn|cn)を決定し、言語モデル格納部104に格納する。これによって、Nグラムクラスモデルに対応した言語モデルの調整が可能となる。
次に、以上のような本実施の形態における音声認識装置の具体的な動作例を説明する。ここでは、ユーザが、図2に示される取得単語語彙の取得単語ID番号1の「マルフローレン」と取得単語ID番号31の「マルクローリン」の中間的な音響特徴をもつ「マルフローリン」という発声を、異なる2つの時刻T1、T2に行った場合を例に説明する。ただし、音声認識装置の言語モデルは単語出現確率に基づくユニグラムであり、認識装置は孤立単語認識を行い、さらに、取得単語語彙、取得単語付帯情報、単語出現確率時間特性は、図2および図3に示される状況であると想定する。
まず、第1回目の発声時刻T1が、図2に示される時刻、つまり、意味カテゴリー「老舗洋品ブランド名」に属する単語を洋品店店舗入口に備付けの光ビーコン装置から取得後「30日8時間15分」、意味カテゴリー「週間ヒット曲名」に属する単語を音楽CDショップ入口に備付けの光ビーコン装置から取得後「1日2時間30分」が経過した時刻であったとする。このとき、発声「マルフローリン」は、つい1日前に訪れた音楽CDショップに関わるユーザの発声である可能性が高い。発声「マルフローリン」の音響的特徴が、取得単語ID番号1の「マルフローレン」と取得単語ID番号31の「マルクローリン」のいずれの音響的特徴とも同等の類似性を持っている場合、この時刻T1における単語出現確率は、意味カテゴリー「週間ヒット曲名」に属する単語に対する値の方が、意味カテゴリー「老舗洋品ブランド名」に属する単語に対する値より高いので(図3)、本実施の形態における音声認識装置100は、意味カテゴリー「週間ヒット曲名」に属する「マルクローリン」をこの発声に対する単語認識結果として出力する。
次に、第1回目の発声時刻T1から60日が経過した時刻T2に、第2回目の発声が行われたとする。この時、既に音楽CDショップに立寄って意味カテゴリー「週間ヒット曲名」に属する単語を取得してから60日以上の時間が経過しているので、ユーザの発声が音楽CDショップに関わる内容である可能性は低い。この時の発声も、第1回目の発声と同様に、その音響的特徴が、取得単語ID番号1の「マルフローレン」と取得単語ID番号31の「マルクローリン」のいずれの音響的特徴とも同等の類似性を持っている場合、今度は、意味カテゴリー「老舗洋品ブランド名」に属する単語に対する単語出現確率値の方が、意味カテゴリー「週間ヒット曲名」に属する単語に対する単語出現確率値より高いので(図3)、音声認識装置100は、意味カテゴリー「老舗洋品ブランド名」に属する「マルフローレン」をこの発声に対する単語認識結果として出力する。「老舗洋品ブランド名」や「週間ヒット曲名」などの単語語彙を取得した後、時刻T1を経てT2に至るまでの期間、それぞれの取得単語の取得単語付帯情報ごとに定義された単語出現確率時間特性に基づき、時間的に連続して言語モデルを調整し、これにより認識対象語彙に適正な制限を加えることができる。
このように、言語モデルの単語出現確率を時間経過とともに連続的に調整することにより、従来技術のように、認識対象語彙に対する制限処理を行った結果ある時点まで認識できていた語彙が突然認識できなくなるというようなことがなく、認識対象語彙に適正な制限を加えつつ、認識対象語彙の制限処理に起因するユーザの違和感を取除くことが可能となる。
なお、時刻T2において、意味カテゴリー「週間ヒット曲名」に属する単語の単語出現確率時間特性値が充分小さな値、例えば図2中のしきい値Pthのようにあらかじめ定められた値よりも小さいならば、言語モデル調整部110によって、意味カテゴリー「週間ヒット曲名」に属する単語を、この時点で取得単語語彙記憶部107に記憶される取得単語語彙から削除し、さらにこれらの単語に関わる取得単語付帯情報、取得単語経過時間、言語モデルも削除してもよい。このような単語語彙削除を伴う言語モデルの調整処理フローは、図5のようになる。取得単語語彙の獲得(S501)から単語出現確率値の決定(S505)までは、前述の図4におけるフローにおけるステップS401〜S405と同様である。次に、決定された単語出現確率値がしきい値Pthよりも小さい場合、言語モデル調整部110は、該当の単語の単語語彙削減処理を行う決定をし(S506)、単語語彙削減処理を実行する(S507)。決定された単語出現確率値が、しきい値Pthよりも大きい場合、言語モデル調整部110は、該当の単語の単語語彙削減処理は行わない決定をし(S506)、以上の処理を該当の全単語について行った後、言語モデルの調整(S509)と言語モデルの格納(S508)を実行する。以上の取得単語語彙と、該当の単語に関わる取得単語付帯情報、取得単語経過時間、言語モデルの削除を行うことにより、音声認識装置内の記憶部を有限に活用することが可能となる。
このように、本実施の形態1に係る音声認識装置100によれば、取得単語信号受信解析部105、単語出現確率時間特性格納部106、取得単語語彙記憶部107、取得単語付帯情報記憶部108、取得後経過時間計測部109、言語モデル調整部110とを備える構成により、取得単語の付帯情報に応じて定義された時間特性に基づいて、言語モデル調整部110が言語モデルの単語出現確率を時間経過とともに連続的に調整することが可能となり、認識対象語彙に適正な制限を加えつつ、認識対象語彙の制限処理に起因するユーザの違和感を取除くことのできる音声認識装置が実現される。
なお、本実施の形態1においては、取得単語信号受信解析部105における取得単語信号の取得は、光ビーコン情報受信装置を用いて取得する例を用いて説明したが、この他に、テレビ放送網、インターネット網、RF−IDなどを利用して取得することも可能である。
また、本実施の形態1においては、取得単語語彙、取得単語付帯情報、取得後経過時間の3つの要素が全て揃って、取得、記憶されることを想定したが、このうち、ある特定の単語については、取得単語付帯情報が取得できない場合は、例えば、音声認識結果から該当単語の意味カテゴリーなど取得単語付帯情報を類推し、これを該当単語の取得単語付帯情報として取得単語付帯情報記憶部108に記憶し、この情報から調整される言語モデルを次回の音声認識時に利用してもよい。
また、本実施の形態1においては、単語出現確率時間特性は、単語出現確率時間特性格納部106にあらかじめ格納されていることを想定したが、該当の取得単語付帯情報に対応した単語出現確率時間特性が単語出現確率時間特性格納部106にあらかじめ格納されていない場合、取得単語信号受信解析部を通じて、認識装置外部から単語出現確率時間特性を取得してもよい。また、該当の取得単語付帯情報に対応した単語出現確率時間特性が単語出現確率時間特性格納部106にあらかじめ格納されていたとしても、取得単語信号受信解析部を通じて、認識装置外部から単語出現確率時間特性が取得可能な場合、これをあらかじめ格納されていた単語出現確率時間特性と置換えて更新してもよい。
また、本実施の形態1においては、単語出現確率時間特性の学習は、同種のカテゴリーに属する商品の販売量が、過去にどのような時間経過特性をもって推移したかに基づき、学習することを想定したが、その他に、同様のカテゴリーに属する単語が新聞、テレビ等のメディアに出現した時間特性に基づき、単語出現確率時間特性を学習してもよい。
また、本実施の形態1においては、単語出現確率時間特性を定める取得単語付帯情報として、単語の言語上の「意味カテゴリー」を参照する例を用いて説明したが、この他に、単語「単語取得場所」など取得状況に関する情報を取得単語付帯情報として利用することも考えられる。例えば、取得単語付加情報の内容が「『単語取得場所』が『テーマパーク入口』」で、取得単語語彙がテーマパーク内の施設名や関連キャラクター名である場合、アミューズメントパークに滞在する時間は長くても数日程度であると考えられるので、3日程度の時間経過後に減衰する特性をもち、取得単語付加情報の内容が「『単語取得場所』が『国際空港到着ゲート』」で、取得単語語彙が到着した国に存在する観光地名、名物料理名、流通通貨単位などである場合、通常観光目的に外国に滞在する期間はビザの有効期間から考えて長くて数ヶ月であると考えられるので、3ヶ月程度の時間経過後に減衰する特性とすることができる。
また、本実施の形態1においては、単語出現確率をもとに調整する言語モデルは、ユニグラムであることを想定して説明したが、この他に、取得した単語出現確率をもとに、バイグラムなどより高次のNグラムの補間を行うという言語モデルの調整を行ってもよいし、さらに、品詞クラスなどのNグラムクラスモデルを言語モデルとして採用する場合、このNグラムクラスモデルを取得した単語出現確率から調整してもよい。
さらに、本実施の形態1においては、取得単語語彙と該当単語に関わる取得単語付帯情報、取得単語経過時間、言語モデルの削除処理において、あらかじめ定められたしきい値より単語出現確率値が小さくなることを削減処理実行のための判断基準としたが、音声認識装置内の記憶部が単語取得により飽和した時点で、単語出現確率の低い単語の順に削除処理を行うことも可能である。
(実施の形態2)
次に、本発明の実施の形態2に係る音声認識装置について、図1、および、図6〜7を用いて説明する。実施の形態2における音声認識装置は、デジタルテレビ受信録画装置に内蔵されており、ユーザがEPGを利用して所望のテレビ番組を検索、録画、または、再生するなどの用途に応用され、ユーザがこれら用途のために発声する番組名や出演者名含む音声を認識する。この音声認識装置の構成は、機能的には、先の実施の形態1と同様である。ただし、単語出現確率時間特性格納部106に格納されている単語出現確率時間特性等の具体的なデータがデジタルテレビ受信録画装置用のものになっている点で実施の形態1と異なる。以下、実施の形態1と異なる点を中心に説明する。
音声認識装置100の外部から単語情報信号を取得する取得単語信号受信解析部105は、例えば、テレビ番組の番組名や出演者名などを含むEPGデータ信号を獲得するための放送信号受信装置やインターネットへの接続装置などから構成され、さらに、番組名や出演者名などテレビ番組の検索、録画、または、再生などの操作に有用な単語語彙を取得されたEPGデータから抽出する機能を備える。取得単語信号受信解析部105は、取得単語信号の受信解析後、抽出した取得単語語彙と取得単語付帯情報を、それぞれ取得単語語彙記憶部107と取得単語付帯情報記憶部108に格納する。さらに、取得単語信号受信解析部105は、取得単語信号受信時、単語取得時刻を表す単語取得時刻信号を取得後経過時間計測部109に送る。取得後経過時間計測部109は、単語取得時刻信号に基づき、その後の経過時間の計測を行い、取得後経過時間として保持する。
図6は、取得単語語彙記憶部107に記憶される取得単語語彙、取得単語付帯情報記憶部108に記録される取得単語付帯情報、ならびに、取得後経過時間計測部にて計測、保持される取得後経過時間の一例を具体的に示している。ここで、取得された単語はいずれもテレビ番組名であり、取得単語付帯情報としては、「意味カテゴリー:今週放送の番組名」「意味カテゴリー:来週放送の番組名」「意味カテゴリー:来月放送の番組名」のいずれかが付与されている。
図7は、単語出現確率時間特性格納部106にあらかじめ格納されている取得単語付帯情報ごとの単語出現確率時間特性の一例を示している。EPGを利用して所望のテレビ番組の検索、録画、または、再生といった操作を行う場合、例えば、1週間先のテレビ番組の録画は、いつ頃その録画操作が行われる頻度が高いかというユーザの操作時期に関する情報は、あらかじめこれを学習しておくことができるので、単語出現確率時間特性は、こうしたユーザのEPG操作時期に関する情報をもとに定めることができる。
例えば、今週放送の番組に関する検索、録画、再生等のEPG操作は、単語取得直後から1〜2週間の間に頻繁に行われると考えられるので、取得単語付帯情報「意味カテゴリー:今週放送の番組名」に属する単語の単語出現確率時間特性は、こうしたユーザ操作の時間特性に対応した特性となっている。
一方、来月放送の番組に関するEPG操作は、放送間じかとなった単語取得後2週間以降に頻繁に行われると考えられるので、取得単語付帯情報「意味カテゴリー:来月放送の番組名」に属する単語の単語出現確率時間特性は、こうしたユーザ操作の時間特性に対応した特性となっている。ここでは、図7に示されるように、一定期間の経過後に単語出現確率がピーク(最大)となるような滑らかな山形の特性となっている。より具体的には、単語取得時に「意味カテゴリー:来月放送の番組名」に属するテレビ番組「オリンピック開会式」は、まだ1ヶ月先の放映であるので、これをユーザが検索や録画操作の対象とする可能性は小さく、今週放送の番組や来週放送の番組よりも小さな単語出現確率値を定義することにより、音声認識装置全体の認識性能を高く保つことができる。単語取得後3週間が経過し、オリンピック開会が間じかになった時、番組「オリンピック開会式」をユーザが検索や録画操作の対象とする可能性が高くなるため、「意味カテゴリー:来月放送の番組名」に該当する単語出現確率値を大きく設定することにより、これに属する番組名「オリンピック開会式」の単語出現確率を大きな値とすることができる。このとき、取得単語付帯情報「意味カテゴリー:今週放送の番組名」に属するテレビ番組は既に放映が終了して一定時間が経過し、ユーザの検索、再生操作もその可能性が低下していると考えられるので、取得単語付帯情報「意味カテゴリー:今週放送の番組名」に属する単語の単語出現確率は小さな値にすることができ、これらテレビ番組名に関する取得単語付帯情報ごと単語出現確率に基づき言語モデルを調節することで、認識対象語彙に適正な制限を加えることができる。
なお、本実施の形態では、単語出現確率時間特性格納部106に格納されている単語出現確率時間特性が単調減少ではなく、一定期間経過後にピークとなる曲線である点で実施の形態1と異なり、他の構成要素における処理は、実施の形態1と同様である。よって、本実施の形態においては、単語出現確率時間特性格納部106には、図7に示されるように、単語出現確率が単語取得後の一定時間の経過後に最大となるような特性が格納されているので、この言語モデル調整部110は、単語が取得されてから一定の経過時間後に単語出現確率が最大となるように変化させることで言語モデルを調整する。ただし、単語出現確率が一定のしきい値よりも小さくなったときに取得単語語彙記憶部107、取得単語付帯情報記憶部108、取得後経過時間計測部109および言語モデル格納部104からそれぞれ対応する取得単語語彙、取得単語付帯情報、取得単語経過時間および言語モデルを削除するタイミングについては、言語モデル調整部110は、単語出現確率の値だけでなく、変化の方向(しきい値を上から下に横切ったこと)をも考慮する。つまり、しきい値よりも大きな値であった単語出現確率がしきい値よりも小さな値になった後に、それらの情報を削除する。
以上のように、言語モデルの単語出現確率を時間経過とともに連続的に調整することにより、従来技術のように、認識対象語彙に対して制限処理を行うことである時点まで認識できていた語彙が突然認識できなくなるというようなことがなく、また、単語取得時にはその単語出現確率値が小さな単語に対しても、発声の頻度が高くなる時期に単語出現確率を大きく設定することも可能となり、認識対象語彙に適正な制限を加えつつ、認識対象語彙の制限処理に起因するユーザの違和感を取除くことが可能となる。
本発明は、音声認識装置として、例えば、現在地周辺の施設名や地名などを認識対象語彙とするナビゲーション装置用の音声認識装置、放送網などを通じて獲得したEPGデータから番組名や出演者名などを抽出し、これらを認識対象語彙とするデジタルテレビ用の音声認識装置、さらには、ユーザが立寄ったお店が扱う商品名やブランド名などを認識対象語彙とする携帯型情報端末用の音声認識装置として有用である。
図1は、本発明の実施の形態1における音声認識装置の構成を示すブロック図 図2は、本発明の実施の形態1における音声認識装置の取得単語語彙と取得単語付帯情報と取得後経過時間の一例を示す図 図3は、本発明の実施の形態1における音声認識装置の単語出現確率時間特性格納部に格納される単語出現確率時間特性の一例を示す図 図4は、本発明の実施の形態1における音声認識装置の言語モデル調整に関わる処理動作の一例を示すフローチャート 図5は、本発明の実施の形態1における音声認識装置の言語モデル調整に関わる処理動作の一例を示すフローチャート 図6は、本発明の実施の形態2における音声認識装置の取得単語語彙と取得単語付帯情報と取得後経過時間の一例を示す図 図7は、本発明の実施の形態2における音声認識装置の単語出現確率時間特性格納部に格納される単語出現確率時間特性の一例を示す図 図8は、従来の音声認識装置の構成を示すブロック図
符号の説明
101 音響特徴量抽出部
102 照合部
103 音響モデル格納部
104 言語モデル格納部
105 取得単語信号受信解析部
106 単語出現確率時間特性格納部
107 取得単語語彙記憶部
108 取得単語付帯情報記憶部
109 取得後経過時間計測部
110 言語モデル調整部

Claims (7)

  1. 音声信号を認識し、認識した結果を出力する音声認識装置であって、
    単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段と、
    入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識手段と、
    外部から単語を取得する単語取得手段と、
    前記単語取得手段によって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率が一定の経過時間後に最大となるように、前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整手段とを備え、
    前記認識手段は、前記言語モデル調整手段によって調整された言語モデルを用いて前記単語又は単語列を特定する
    ことを特徴とする音声認識装置。
  2. 前記単語取得手段は、前記単語の意味カテゴリーを示す情報を前記単語付帯情報として取得し、
    前記言語モデル調整手段は、前記単語付帯情報が示す意味カテゴリーごとに、前記言語モデルにおける前記出現確率を変化させる
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記単語取得手段は、前記単語がいずれの場所で取得されたか示す情報を前記単語付帯情報として取得し、
    前記言語モデル調整手段は、前記単語付帯情報が示す単語取得場所ごとに、前記言語モデルにおける前記出現確率を変化させる
    ことを特徴とする請求項1記載の音声認識装置。
  4. 前記単語取得手段は、前記単語とともに、当該単語に付帯する事項を示す単語付帯情報を取得し、
    前記言語モデル調整手段は、
    単語付帯情報ごとに、単語が取得されてからの経過時間に伴って単語の出現確率がどのように変化するかを示す単語出現確率時間特性を格納している単語出現確率時間特性格納部と、
    前記単語取得手段によって取得された単語と単語付帯情報とを対応づけて記憶する単語記憶部と、
    前記単語取得手段によって単語が取得されてからの経過時間を単語ごとに計測する経過時間計測部と、
    前記単語記憶部に記憶されている単語について、当該単語の単語付帯情報に対応する単語出現確率時間特性を前記単語出現確率時間特性格納部に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて前記経過時間計測部によって計測された当該単語の経過時間に対応する単語の出現確率を特定し、特定した出現確率を用いて前記言語モデルを調整する調整部とを有する
    ことを特徴とする請求項1記載の音声認識装置。
  5. 前記調整部は、特定した前記単語の出現確率が一定のしきい値よりも小さい場合に、前記単語記憶部に記憶されている前記単語、前記単語の単語付帯情報、前記経過時間計測部に保持されている前記単語の経過時間、及び、前記言語モデル格納手段に格納されている前記単語の言語モデルのいずれか又は全てを削除する
    ことを特徴とする請求項記載の音声認識装置。
  6. 単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段を用いて音声を認識する方法であって、
    入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識ステップと、
    外部から単語を取得する単語取得ステップと、
    前記単語取得ステップによって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率が一定の経過時間後に最大となるように、前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整ステップとを含み、
    前記認識ステップでは、前記言語モデル調整ステップによって調整された言語モデルを用いて前記単語又は単語列を特定する
    ことを特徴とする音声認識方法。
  7. 単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段を備える音声認識装置のためのプログラムであって、
    請求項記載の音声認識方法に含まれるステップをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2006547696A 2004-11-30 2005-11-01 音声認識装置 Active JP3955880B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004347420 2004-11-30
JP2004347420 2004-11-30
PCT/JP2005/020126 WO2006059451A1 (ja) 2004-11-30 2005-11-01 音声認識装置

Publications (2)

Publication Number Publication Date
JP3955880B2 true JP3955880B2 (ja) 2007-08-08
JPWO2006059451A1 JPWO2006059451A1 (ja) 2008-06-05

Family

ID=36564888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006547696A Active JP3955880B2 (ja) 2004-11-30 2005-11-01 音声認識装置

Country Status (3)

Country Link
US (1) US7848927B2 (ja)
JP (1) JP3955880B2 (ja)
WO (1) WO2006059451A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015526797A (ja) * 2012-06-21 2015-09-10 グーグル・インコーポレーテッド 動的言語モデル

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
JP5196114B2 (ja) * 2007-07-17 2013-05-15 ヤマハ株式会社 音声認識装置およびプログラム
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US10140983B2 (en) 2015-08-28 2018-11-27 International Business Machines Corporation Building of n-gram language model for automatic speech recognition (ASR)
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
JP6833203B2 (ja) * 2017-02-15 2021-02-24 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
CN110705279A (zh) * 2018-07-10 2020-01-17 株式会社理光 一种词汇表的选择方法、装置及计算机可读存储介质
EP3644215A1 (en) 2018-10-22 2020-04-29 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
US11138968B2 (en) * 2018-11-30 2021-10-05 Google Llc Speech processing
US11769012B2 (en) * 2019-03-27 2023-09-26 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
CN113763938B (zh) * 2021-10-27 2024-06-07 杭州网易智企科技有限公司 语音识别方法、介质、装置和计算设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3283359B2 (ja) 1993-09-28 2002-05-20 マツダ株式会社 音声対話式ナビゲーション装置
JP3836607B2 (ja) 1998-09-02 2006-10-25 日本放送協会 音声認識のための統計的言語モデル作成装置
JP2001022374A (ja) 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP3563018B2 (ja) 2000-07-21 2004-09-08 シャープ株式会社 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP2004198831A (ja) 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
US7734996B2 (en) * 2003-09-08 2010-06-08 Nec Corporation Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015526797A (ja) * 2012-06-21 2015-09-10 グーグル・インコーポレーテッド 動的言語モデル
US10140362B2 (en) 2012-06-21 2018-11-27 Google Llc Dynamic language model

Also Published As

Publication number Publication date
JPWO2006059451A1 (ja) 2008-06-05
WO2006059451A1 (ja) 2006-06-08
US20080046244A1 (en) 2008-02-21
US7848927B2 (en) 2010-12-07

Similar Documents

Publication Publication Date Title
JP3955880B2 (ja) 音声認識装置
US8666743B2 (en) Speech recognition method for selecting a combination of list elements via a speech input
EP1936606B1 (en) Multi-stage speech recognition
JP5697860B2 (ja) 情報検索装置,情報検索方法及びナビゲーションシステム
JP3716870B2 (ja) 音声認識装置および音声認識方法
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
JP5266761B2 (ja) 情報案内システムおよびその認識辞書データベース更新方法
JP4816409B2 (ja) 認識辞書システムおよびその更新方法
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US8380505B2 (en) System for recognizing speech for searching a database
US20010041977A1 (en) Information processing apparatus, information processing method, and storage medium
Gauvain et al. Large-vocabulary continuous speech recognition: advances and applications
US20010053974A1 (en) Speech recognition apparatus, speech recognition method, and recording medium
US11705116B2 (en) Language and grammar model adaptation using model weight data
US7912707B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
Wang Mandarin spoken document retrieval based on syllable lattice matching
JP2007187975A (ja) 音声認識装置および音声認識方法
JP4611823B2 (ja) 音声認識候補文字列選択装置
JP2003255980A (ja) 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
Koržinek et al. Automatic transcription of Polish radio and television broadcast audio
CN116246611A (zh) 用于确定车辆域的方法和用于车辆的语音识别系统
JP2003263187A (ja) 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体
JP2013156360A (ja) 音声認識装置、カーナビゲーション装置及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070507

R150 Certificate of patent or registration of utility model

Ref document number: 3955880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250