JP2006503328A

JP2006503328A - ディレクトリアシスタント方法及び装置

Info

Publication number: JP2006503328A
Application number: JP2004544575A
Authority: JP
Inventors: ユイ−チャンワン; フランクティビーセイデ; ユアン−フリアオ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-10-16
Filing date: 2003-10-08
Publication date: 2006-01-26
Also published as: TWI307845B; EP1554864B1; TW200419387A; AU2003264790A1; KR20050056242A; CN1706173A; WO2004036887A1; CN100502441C; EP1554864A1

Abstract

大規模な自動対話テレコミュニケーションシステムに対するディレクトリアシスタント方法及び装置が開示される。前記ディレクトリアシスタント方法及び装置は、所望のディレクトリエントリを説明するようにユーザに要求するために自然言語対話システムを使用し、これらの説明を解析及び理解し、これらの意味を解釈するために関連知識データベースを使用する。最後に、前記ディレクトリアシスタント方法及び装置は、複数回の対話と、ディレクトリデータベースと、関連知識データベースから全ての利用することができる情報を統合し、前記ユーザの所望のディレクトリエントリ情報を提供する。

Description

本発明は、ディレクトリアシスタント方法及び装置に関し、特には、自動対話テレコミュニケーションシステム（automatic dialogue telecommunication system）におけるディレクトリアシスタント方法及び装置に関する。

顧客に電話番号を提供するディレクトリアシスタント（ＤＡ）システムは、重要なテレコミュニケーションビジネスである。例えば、Kelsey Groupは、テレコム会社が、世界中で合計して一ヶ月あたり５億１６００万以上のＤＡコールを受けており、このほとんど全てが現在はオペレータにより処理されていると推定している。音声認識を使用してこのサービスを自動化することは、大きな市場機会である。

従来のＤＡシステムは、限定された対話を使用することにより実施される。従来は、前記ＤＡシステムは、初めに、ユーザに到達されるべき人物の名前を言うように要求し、次いで、音声認識器を使用してディレクトリデータベースから幾つかの候補を見つける。前記候補が多すぎる場合には、前記ＤＡシステムは、更に、所望の人物の名前の綴りを言うか、又は追加の情報、例えば前記所望の人物が住んでいる通りの名前を提供するように前記ユーザに要求する。このようにして、前記候補の範囲は、更に絞り込まれることができる。最後に、前記ＤＡシステムは、対応する番号又はただ“はい／いいえ”を答えることにより正しいものを選択するように前記ユーザに要求する。このＤＡシステムは、小さな西洋のＤＡシステムに対してはうまく機能する。しかしながら、例えば、大都市で使用される12,000,000のエントリを持つ大規模なディレクトリアシスタントシステムに対しては、上述の入力情報が、全ての可能性のある候補を区別するのに十分ではないので、うまく機能しない可能性がある。

同じシステムは、大規模な中国のＤＡシステムに対してもうまく機能しない。前記入力情報は、以下の固有の特徴のため、全ての可能性のある候補を区別するのに十分ではない。第一に、中国語は単音節の言語である。中国語の各語は、厳密に１つの音節を含む。１３０００以上の常用語及び１３００の正当な音節のみが存在する。平均して、各音節に対して約１０の同音異義語が存在する。第二に、中国人の名前は、たいてい西洋人の名前より短い。中国人の名前は３つの音節のみを持つ。更に、１０億人の中国人により頻繁に使用される約二百の名字（姓）が存在する。したがって、中国のＤＡシステムの曖昧さを解決するためには、より多くの情報が必要とされる。第三に、中国語は表意文字からなる言語である。中国人は、普通は、彼らの名前を一語ずつ且つ一般に使用される成句により説明することにより他の人々に彼らの名前を紹介する。中国語の語を“綴る”又は“構成する”容易且つ標準的な仕方は存在しない。したがって、既存のＤＡシステム、特に中国のＤＡシステムの性能は十分ではない。

本発明の目的は、所望のディレクトリエントリ情報を提供するディレクトリアシスタント方法及び装置を提供することである。前記ディレクトリアシスタント方法及び装置は、所望のディレクトリエントリを説明するようにユーザに要求するために自然言語対話システムを使用し、次いで、これらの説明を解析及び理解し、意味を解釈するために関連知識データベースを使用する。最後に、前記ディレクトリアシスタント方法及び装置は、複数回の対話と、ディレクトリデータベースと、関連知識データベースとから全ての利用することができる情報を統合し、前記ユーザの所望のディレクトリエントリ情報を提供する。

本発明の他の目的は、プロセッサにより実行される場合に、前記プロセッサに所望のディレクトリエントリ情報を提供させる、複数の命令が記憶されたコンピュータ読取可能媒体に存在するコンピュータプログラムを提供することである。

本発明は、説明のみのために与えられ、したがって限定的ではない、以下に与えられる詳細な記述及び添付図面から、より完全に理解されることができるようになる。

図１を参照すると、標準中国語（Mandarin）ディレクトリアシスタント装置のような、本発明のディレクトリアシスタント装置は、ディレクトリエントリ情報、文法規則及び概念系列（concept sequences）を記憶するデータベース３０と、所望のディレクトリエントリを説明する音声信号を受信し、前記音声信号を認識し、認識された語系列を生成する音響認識ユニット１０と、データベース３０に記憶された所定の文法規則及び前記所定の文法規則の関連情報を使用することにより前記認識された語系列を解釈して概念系列を形成し、前記データベースに記憶された意味論的な意味及び前記意味論的な意味の関連情報並びに現在のシステムステータスによって前記概念系列を解釈し、これにより前記所望のディレクトリエントリに対する最大事後確率及び最大尤度基準の１つを使用することにより少なくとも１つの候補を生成する音声解釈ユニット２０であって、これに加えて更に、前記システムステータスを更新する音声解釈ユニット２０と、データベース３０から前記少なくとも１つの候補に対応する少なくとも１つのディレクトリエントリ情報を検索するルックアップユニット４０と、見つけられた前記少なくとも１つのディレクトリエントリ情報を出力する（音声出力ユニットのような）出力ユニット６０とを有する。

本発明のディレクトリアシスタント装置は、更に、より多くの情報を要求するために質問を生成する質問生成器６０を有し、この質問は、より多くの情報を供給するようにユーザに要求することと、リストに基づく確認と、自由回答式の確認との１つである。前記リストに基づく確認は、可能性のある候補が制限数内であるか、又はトップの候補の確率が他の候補の確率から遠くはなれている場合に使用される。前記自由回答式の確認は、確認のためにユーザに要求する名前データベース内の最もよくある説明の仕方、例えば、李登輝的李（李３登１輝１と同じ李３）という場合に使用される。

音響認識ユニット１０は、更に、入力音声信号を認識し、認識された語系列を生成する音声認識器１１と、事前にトレーニングされており、全ての混同する可能性のある語、対応する正しい語及び発生確率を有する混同表１３によって前記認識された語系列を拡張する混同解析器１２と、確実性表１５によって混同する可能性のある語の対を除去する確実性測定ユニット１４とを有する。

データベース３０は、関連知識データベース３１とディレクトリデータベース３２とを有する。関連知識データベース３１は、語及び前記語の使用頻度、前記語を説明する仕方、文法規則、属性及び対応する使用頻度、コミュニケーション概念及び前記コミュニケーション概念の使用頻度、対応する文法規則、並びに意味論的な意味及び使用頻度を有し、ディレクトリデータベース３２は、複数のエントリを有し、各エントリは、名前、電話番号、関連情報及び使用頻度を有する。

関連知識データベース３１において、よくある名前の語は、複数のよくある説明の仕方と共に記憶され、前記文法規則及び概念系列は、エントリ名又はエントリ名の少なくとも１語及び前記エントリ名の関連情報を有する前記所望のディレクトリエントリを説明するために使用され、前記文法規則は、頻繁に使用される文法テンプレート及び頻繁に使用される語により生成される。前記文法テンプレートは、頻繁に使用される名詞、有名人の名前、慣用句、文字ストローク、文字、語、及び文字の語根（character roots）等により生成される。例えば、名前の中の語は、以下のように説明されることができる。
−李登輝的李（李３登１輝１と同じ李３）のような、有名な名字の説明。
−李登輝的李（李３登１輝１と同じ李３）のような、有名な名前の説明。
−趙錢孫李的趙（趙４錢２孫１李３と同じ趙４）のような、常用語、成句、及び特に４語の中国の慣用句。
−三横一豎王（３本の水平な線及び１本の縦の線を持つ王２）、又は耳東陳（耳及び東を持つ陳２）のような一般に使用される書き方／ストロークの説明。

図２は、本発明の頻繁に使用されるテンプレート及び頻繁に使用される語からの名前説明文法規則の生成を図示する。本発明は、初めに、名前説明文法規則及び対応する意味論的なタグ（tag）を集めるデータベースを構築する。

前記データベースを構築する２つの仕方が存在する。第１の仕方は、可能な限り多くの名前及び対応する文字の説明を集めることである。このデータベースから、我々は、ＬＮ（名字の説明）８４、ＦＮ１（ファーストネームの第１語の説明）８５及びＦＮ２（ファーストネームの第２語の説明）８６のような名前説明文法規則及び確率統計を見つけた。

第２の仕方は、名前説明の小さなデータベース（例えば上述のデータベース）から頻繁に使用される文法テンプレートを見つけることである。この場合、我々は、見つかった文法テンプレート及び頻繁に使用される語を使用して必要な文法規則を生成する。例えば、我々は、名前の語を説明する最もよくある仕方は、
−頻繁に使用される名詞（ＦＮｏｕｎ）８１と、
−有名人の名前（ＦＮａｍｅ）８２と、
−慣用句（ＣＩ）と、
−文字のストローク（ＣＳ）と、
−頻繁に使用される外来語（ＦＷ）と、
−文字の語根（ＣＲ）８３と、
−．．．．．．
−他の不規則的な仕方と、
であることを見つけた。

我々は、この場合、これらの文法テンプレート及び（辞書、インターネット、新聞等から集められた）頻繁に使用される語を組み合わせることにより必要な文法規則を確立することができる。

図３を参照すると、標準中国語ディレクトリアシスタント方法のような本発明の前記ディレクトリアシスタント方法は、以下のように記述される。

前記方法は、初めに、所望のディレクトリエントリを音声入力するように前記ユーザに要求する質問をプロンプトとして出し（１００）、次いで前記所望のディレクトリエントリを説明する音声信号を受信し（１１０）、前記音声信号を認識し、認識された語系列を生成し、混同表によって前記認識された語系列を拡張し、確実性表によって混同する可能性のある語の対を除去し（１２０）、概念系列を形成するためにデータベースに記憶された所定の文法規則及び前記所定の文法規則の関連情報を使用することにより前記認識された語系列を解釈し（１３０）、前記データベースに記憶された意味論的な意味及び前記意味論的な意味の関連情報並びに現在のシステムステータスによって前記概念系列を解釈し、これにより前記所望のディレクトリエントリに対する最大事後確率及び最大尤度基準の１つを使用することにより少なくとも１つの候補を生成し、前記データベースから前記少なくとも１つの候補に対応する少なくとも１つのディレクトリエントリ情報を検索し、不確実性がある場合には、より多くの情報を要求する質問を生成し（１５０）、見つけられた前記少なくとも１つのディレクトリエントリ情報を出力し（１６０）、前記見つけられたディレクトリエントリ情報を確認し、前記所望のディレクトリエントリが見つけられるまで上述のステップを繰り返す（１７０）。

上述の方法は、コンピュータプログラム命令により実施されることができる。前記コンピュータプログラム命令は、コンピュータ又は他のプログラム可能な処理装置にロードされ、図３に図示される方法の機能を実行することができる。前記コンピュータプログラム命令は、コンピュータプログラムプロダクト又はコンピュータ読取可能媒体に記憶されることができる。コンピュータプログラムプロダクト又はコンピュータ読取可能媒体の例は、磁気テープ、フロッピー（登録商標）ディスク、ハードディスクドライブ、ＲＡＭ、ＲＯＭ及び光学ディスクのような記録可能型媒体、並びにデジタル及びアナログ通信リンクのような伝送型媒体を含む。

本発明は、名前の中の語を説明する仕方と、名前の中の語を説明する仕方を記憶する関連知識データベースを構築する仕方と、入力音声を解析するために文法規則として前記データベースを使用する仕方とを理解することを対象とする。この新しいアーキテクチャにより、本発明は、依然として不確実性がある場合に名前の語を説明するように前記ユーザに要求するために自然言語対話システムを使用することができる。本発明は、この場合、これらの説明を解析及び理解し、これらの意味を解釈するために前記関連知識データベースを使用する。最後に、本発明は、全ての利用することができる情報を組み合わせて、可能性のある候補の範囲を絞り込み、最終的に、正しいディレクトリエントリを見つける。本発明の一部は、例として中国語の語を使用することにより説明されているが、本発明は、他の言語にも適用されることができる。例えば、李登輝的李（李３登１輝１と同じ李３）のような有名な名字の説明は、“George Bushと同じBush”に変更されることができる。

本発明及びその利点は、詳細に記載されているが、様々な変更、置き換え及び交代が、添付の請求項より定められる本発明の精神及び範囲から外れることなくこの中で行われることができると理解されるべきである。

参考文書
１．Nick Wang及びLeo Liao, Chinese name recognition, Philips Corporate Intellectual Propertyに提出されたインベンションディスクロージャー, 2000年10月11日
２．Andreas Kellner, Bernhard Rueber, Frank Seide, 及びBach-Hiep Tran., “PADIS -- an Automatic Telephone Switchboard and Directory Information System”, Speech Communication, 23:95--111, 1997年10月
３．Bernd Souvignier, Andreas Kellner, Bernhard Rueber, Hauke Schramm, 及びFrank Seide., “The Thoughtful Elephant: Strategies for Spoken Dialog Systems”. IEEE Transactions on Speech and Audio Processing, 8(1):51--62, 2000年1月
４．Georg Rose, “PADIS-XXL, Large Scale Directory Assistant,” パワーポイントスライド, Man-Machine Interface, 2000年.
５．Andreas Meylahn, “SpeechFinder for SpeechPerl 2000 - Developer’s Guide v2.0”, Philips Speech Processing - Aachen, ドイツ, 2000年9月21日
６．Yen-Ju Yang （楊燕珠）, “Statistics-based spoken dialogue modeling and its applications,” 博士論文, National Taiwan University, 台湾, 1999年.
７．Jan Kneissler及びDietrich Klakow, “Speech Recognition for Huge Vocabularies by Using Optimized Sub-Word Units”
８．Dietrich Klakow, Georg Rose及びXavier Aubert, “OOV-Detection in Large Vocabulary System Using Automatically Defined Word-Fragments as Fillers”, Proc. EUROSPEECH, Vol. 1, 1999年, 頁49-53.
９．Alex Weibel, Petra Geutner, Laura Mayfield Tomokiyo, Tanja Schultz及びMonika Woszcyna, “Multilinguality in Speech and Spoken Language Systems,” Proceedings of the IEEE, Vol. 88, No. 8, 2000年8月, 頁1297-1313.

本発明のディレクトリアシスタント装置のブロック図を示す。本発明の頻繁に使用されるテンプレート及び頻繁に使用される語からの名前説明文法規則の生成を図示する。本発明のディレクトリアシスタント方法のフローチャートを示す。

Claims

所望のディレクトリエントリ情報を提供するディレクトリアシスタント方法において、
（ａ）所望のディレクトリエントリを説明する音声信号を受信するステップと、
（ｂ）前記音声信号を認識し、認識された語系列を生成するステップと、
（ｃ）概念系列を形成するために、データベースに記憶された所定の文法規則及び前記所定の文法規則の関連情報を使用することにより前記認識された語系列を解釈するステップと、
（ｄ）前記データベースに記憶された意味論的な意味及び前記意味論的な意味の関連情報並びに現在のシステムステータスによって前記概念系列を解釈し、これにより前記所望のディレクトリエントリに対する少なくとも１つの候補を生成するステップと、
（ｅ）前記データベースから前記少なくとも１つの候補に対応する少なくとも１つのディレクトリエントリ情報を検索するステップと、
（ｆ）見つけられた前記少なくとも１つのディレクトリエントリ情報を出力するステップと、
を有する方法。
ユーザの訂正又は確認のステップと、前記所望のディレクトリエントリ情報が見つけられるまで前記ステップ（ａ）ないし（ｆ）を繰り返すステップとを有する、請求項１に記載の方法。
前記ステップ（ａ）が、音声信号を受信する前に、システムがプロンプトを出すステップを有する、請求項１に記載の方法。
前記所定の文法規則及び前記概念系列が、エントリ名又はエントリ名の少なくとも１語及び前記エントリ名の関連情報を有する前記所望のディレクトリエントリを説明するために使用される、請求項１に記載の方法。
前記所定の文法規則が、頻繁に使用される文法テンプレート及び頻繁に使用される語により生成される、請求項１に記載の方法。
前記文法テンプレートが、頻繁に使用される名詞、有名人の名前、慣用句、文字ストローク、文字、語、及び文字の語根の１つにより生成される、請求項５に記載の方法。
前記データベースが、関連知識データベース及びディレクトリデータベースを有する、請求項１に記載の方法。
前記ステップ（ｂ）が、混同表によって前記認識された語系列を拡張するステップを有する、請求項１に記載の方法。
前記混同表が、事前にトレーニングされ、全ての混同する可能性のある語と、対応する正しい語と、発生確率とを有する、請求項８に記載の方法。
前記ステップ（ｂ）が、確実性表によって混同する可能性のある語の対を除去する確実性測定のステップを有する、請求項１に記載の方法。
前記ステップ（ｄ）が、前記システムステータスを更新するステップを有する、請求項１に記載の方法。
前記ステップ（ｅ）が、より多くの情報を要求するために質問を生成するステップを有する、請求項１に記載の方法。
前記質問が、より多くの情報を供給するようにユーザに要求することと、リストに基づく確認と、自由回答式の確認との１つである、請求項１２に記載の方法。
前記関連知識データベースが、語及び前記語の使用頻度、前記語を説明する仕方、文法規則、並びに属性及び対応する使用頻度を有する、請求項７に記載の方法。
前記関連知識データベースが、コミュニケーション概念及び前記コミュニケーション概念の使用頻度、対応する文法規則、並びに意味論的な意味及び使用頻度を有する、請求項７に記載の方法。
前記ディレクトリデータベースが複数のエントリを有し、各エントリが、名前、電話番号、関連情報及び使用頻度を有する、請求項７に記載の方法。
前記少なくとも１つの候補が、最大事後確率及び最大尤度基準の１つを使用することにより生成される、請求項１に記載の方法。
前記方法が、標準中国語ディレクトリアシスタント方法である、請求項１に記載の方法。
複数の命令が記憶されたコンピュータ読取可能媒体上に存在するコンピュータプログラムにおいて、プロセッサにより実行される場合に、前記プロセッサに、
所望のディレクトリエントリを説明する音声信号を受信させ、
前記音声信号を認識させ、認識された語系列を生成させ、
概念系列を形成するために、データベースに記憶された所定の文法規則及び前記所定の文法規則の関連情報を使用することにより前記認識された語系列を解釈させ、
前記データベースに記憶された意味論的な意味及び前記意味論的な意味の関連情報並びに現在のシステムステータスによって前記概念系列を解釈させ、これにより前記所望のディレクトリエントリに対する少なくとも１つの候補を生成させ、
前記データベースから前記少なくとも１つの候補に対応する少なくとも１つのディレクトリエントリ情報を検索させ、
見つけられた前記少なくとも１つのディレクトリエントリ情報を出力させる、
コンピュータプログラム。
所望のディレクトリエントリ情報を提供するディレクトリアシスタント装置において、
ディレクトリエントリ情報、文法規則及び概念系列を記憶するデータベースと、
前記所望のディレクトリエントリを説明する音声信号を受信し、前記音声信号を認識し、認識された語系列を生成する音響認識ユニットと、
概念系列を形成するために、前記データベースに記憶された所定の文法規則及び前記文法規則の関連情報を使用することにより前記認識された語系列を解釈し、前記データベースに記憶された意味論的な意味及び前記意味論的な意味の関連情報並びに現在のシステムステータスによって前記概念系列を解釈し、これにより前記所望のディレクトリエントリに対する少なくとも１つの候補を生成する音声解釈ユニットと、
前記データベースから前記少なくとも１つの候補に対応する少なくとも１つのディレクトリエントリ情報を検索するルックアップユニットと、
見つけられた前記少なくとも１つのディレクトリエントリ情報を出力する出力ユニットと、
を有するディレクトリアシスタント装置。
前記所定の文法規則及び前記概念系列が、エントリ名又はエントリ名の少なくとも１語及び前記エントリ名の関連情報を有する前記所望のディレクトリエントリを説明するために使用される、請求項２０に記載のディレクトリアシスタント装置。
前記データベースが、関連知識データベース及びディレクトリデータベースを有する、請求項２０に記載のディレクトリアシスタント装置。
前記関連知識データベースが、語及び前記語の使用頻度、前記語を説明する仕方、文法規則、並びに属性及び対応する使用頻度を有する、請求項２２に記載のディレクトリアシスタント装置。
前記関連知識データベースが、コミュニケーション概念及び前記コミュニケーション概念の関連情報、対応する文法規則、並びに意味論的な意味及び使用頻度を有する、請求項２２に記載のディレクトリアシスタント装置。
前記ディレクトリデータベースが複数のエントリを有し、各エントリが、名前、電話番号、関連情報及び使用頻度を有する、請求項２２に記載のディレクトリアシスタント装置。
前記所定の文法規則が、頻繁に使用される文法テンプレート及び頻繁に使用される語により生成される、請求項２０に記載のディレクトリアシスタント装置。
前記文法テンプレートが、頻繁に使用される名詞、有名人の名前、慣用句、文字ストローク、文字、語及び文字の語根の１つにより生成される、請求項２６に記載のディレクトリアシスタント装置。
前記音響認識ユニットが、前記音声信号を認識し、認識された語系列を生成する音声認識器を有する、請求項２０に記載のディレクトリアシスタント装置。
前記音響認識ユニットが、混同表によって前記認識された語系列を拡張する混同解析器を有する、請求項２０に記載のディレクトリアシスタント装置。
前記混同表が、事前にトレーニングされ、全ての混同する可能性のある語と、対応する正しい語と、発生確率とを有する、請求項２９に記載のディレクトリアシスタント装置。
前記音響認識ユニットが、確実性表によって混同する可能性のある語の対を除去する確実性測定ユニットを有する、請求項２０に記載のディレクトリアシスタント装置。
前記音声解釈ユニットが、前記システムステータスを連続的に更新する、請求項２０に記載のディレクトリアシスタント装置。
より多くの情報を要求するために質問を生成する質問生成器を有する、請求項２０に記載のディレクトリアシスタント装置。
前記質問が、より多くの情報を供給するようにユーザに要求することと、リストに基づく確認と、自由回答式の確認との１つである、請求項３３に記載のディレクトリアシスタント装置。
前記少なくとも１つの候補が、最大事後確率及び最大尤度基準の１つを使用することにより生成される、請求項２０に記載のディレクトリアシスタント装置。
前記出力ユニットが、音声出力ユニットである、請求項２０に記載のディレクトリアシスタント装置。
前記ディレクトリアシスタント装置が、標準中国語ディレクトリアシスタント装置である、請求項２０に記載のディレクトリアシスタント装置。