JP2013190985A

JP2013190985A - 知識応答システム、方法およびコンピュータプログラム

Info

Publication number: JP2013190985A
Application number: JP2012056496A
Authority: JP
Inventors: Sakae Takeuchi; 栄竹内; Teru Inaba; 輝稲葉
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-03-13
Filing date: 2012-03-13
Publication date: 2013-09-26

Abstract

【課題】自然言語で入力された質問文に対して、コンピュータの回答率を高め、かつ、より的確な回答を可能とする知識応答システムを提供する。
【解決手段】自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行い、入力文が平叙文の場合、知識データとして該入力文を意味モデルデータベースに蓄積する。入力文が質問文の場合、インターネットに接続してＷｅｂ検索を行い、正規化された検索結果を取得して、Ｗｅｂ検索結果データベースに格納する。入力文が質問文の場合、意味モデルデータベースと、必要に応じてＷｅｂ検索結果データベースとから知識データを抽出して質問文と比較し意味検証を行い、回答が得られたならば回答文を生成して出力する。このように、蓄積された知識だけでなくＷｅｂ検索によって得られる情報もユーザーへの回答生成に利用する。
【選択図】図１

Description

自然言語で入力された文に対してコンピュータが文を認識することにより、自然言語によるマン・マシンインターフェイスを可能とする知識応答システムに関する。

かつて、人間と機械（コンピュータ）との間での会話は、限られた数の命令語によって行われていた。たとえば、“PRINT FILE-A”と入力すれば、コンピュータはファイルFILE-Aの内容を印刷する、といったようにである。PRINTという人間が理解できる単語を用いていても、これは所詮コンピュータ言語すなわちコンピュータ側から作られた言語である。つまり、人間の脳をコンピュータの脳に合わせるわけであるから、覚えるには、やはりある程度の訓練が必要である。そのことが、人間とコンピュータの垣根を高いものとしていた。この垣根を低くするために、メニュー方式や対話形式によるマン・マシンインターフェイスが考案され、さまざまな分野で利用されてきている。しかしこれらの方式は、いわば使い勝手の良さの改良であって、人間とコンピュータの垣根の問題に根本的に迫るものではない。

人間が日常話している言語すなわち自然言語をコンピュータが理解できるようになれば、上記のような人間とコンピュータの間に存在する垣根もどんどん低くなっていくに違いない。つまり、人間の脳にコンピュータを合わせるわけである。このような観点から近年、さまざまなアプローチで自然言語によるマン・マシンインターフェイスが研究されている。その結果、この分野に関する発明も数多く特許出願されている。

本出願人による特開２００２−２１５６６１（特許文献１）もそのひとつである。この発明の前提となる考え方は、人間が機械と会話するには、自然言語によるインターフェイスが必要となるというものである。文によってなされた質問に対して文によって回答を行うには、文を理解し、文を作成して回答する必要がある。しかし、回答文が常に用意されているわけではない。そこで、このような障害をどのように乗り越えるか、が課題となるが、特許文献１に開示の発明は当該課題を自然言語で入力された文に対して、すでに知識として蓄えられたデータ（知識データ）から何らかの回答を引き出して出力することにより解決しようとするものである。

以下、特開２００２−２１５６６１に記載の「自然言語インターフェイス知識応答システム」について図７を参照しながら簡単に説明する。
図７のシステム処理概念図に示すように、この従来発明で扱う入力文は平叙文すなわち知識入力（ａ）と質問文入力（ｂ）である。
入力文が知識データに属するか、質問データに属するか、命令データに属するかは、形態素解析（ｃ）、構文解析（ｄ）、および意味解析（ｅ）を行うことによって判明する。
入力文が平叙文の場合には上記解析後、意味モデルデータベース（知識用）に登録して将来の知識データとして使用される。入力文が質問文の場合には上記解析後、意味モデルデータベース（質問用）に一時的に記憶される。後続する意味検証（ｆ）が、これを処理することになる。なお、入力文が命令文の場合には、最後に何らかの実行を伴う点で質問文と相違するが、他は質問文とほぼ同様なので概念図からは省略した。

意味検証（ｆ）では、入力文が質問文の場合、意味解析（ｅ）によって得られた解析結果を、意味モデルデータベース（知識用）に登録してある知識と比較・検討し、当該質問に対しての回答を得る。質問の解析結果に不確定値があれば、意味モデルデータベース（知識用）から検索し、その結果確定すれば出力文生成（ｇ）の処理において回答文が生成され、ユーザー宛に出力する。命令文の場合には命令が伴うことになる。

以上が、従来発明の処理概要であるが、その目的は、自然言語によるマン・マシンインターフェイスを実現するにとどまるのではなく、何らかの形で質問に対する応答を行うことである。自然言語で入力された質問文に対して、質問に対応する知識データが意味モデルデータベース（知識用）に有ればそのまま出力する。しかし、知識データが無い場合でも、「該当する答がありません」という回答は極力排除する。そのためには、意味解析（ｅ）の処理によって質問を抽象化し、意味検証（ｆ）の処理では、抽象化した文に対して、知識データを順次照らし合わせて、比較・検討を行い、最もふさわしい回答文を導き、それを出力する。このような努力を行っても、適当な回答が探索できなかったり、質問の意味を理解できなかったりする場合には、出力文生成（ｇ）の処理において回答文の出力のかわりに再質問を行ったり、回答に必要な知識データの入力を要求したりする。

特開２００２−２１５６６１号公報

上記の特許文献１では、回答を得るに際し、質問文の意味の抽象化を行って広範囲の推論を行っているために、質問文に対する回答文を具体的・直截的な形で知識データベースに用意しておく必要がない。また、質問に対する直接的な回答しかできないというのでは自然言語を使っているとは言いがたい。近い回答、関連する回答、補足的な説明を加えた回答、どうしても回答不能なら逆質問、これらも上記の特許文献１では目指している。
しかしながら、どのような質問文が入力されるかは予測がつかない。いずれの質問に対しても、何らかの回答を行うためには知識データベースに蓄積されているデータ量がものをいう。データ量が貧弱であれば、ユーザーが期待するような回答ができず、システムの意義が失われる。
ところで、ある米国の研究所では１００万語以上の単語を辞書に登録しているところがあるそうであるが、それでも人間と機械との自然会話はできないという。辞書への登録作業が旧態依然としていたのでは、あまり進歩・発展は望めないということである。また“量の問題”だけではなく、“質の問題”もある。鮮度、専門性等である。ところが、特許文献１では、知識データとして登録されるのは主としてユーザーによって入力された平叙文である。これでは質問への回答が十分にできず（低回答率）、たとえ回答できたとしても鮮度、専門性において的確な回答ができないおそれがありうる。

このような現状に鑑み、本出願人はインターネットの活用を提案する。すなわち、インターネットの急速な普及により、現在ではインターネットを介して各種の情報を取得することが広く行われている。しかも検索エンジンの進歩により、単語や短文をキーワードとして入力するときわめて短時間に多量の検索結果を取得できる。このインターネットを利用した検索機能は、今や一種の社会インフラともいうべきものである。
この検索機能に着目し、これを活用することによって、蓄積済みの知識データの不十分さを補い、回答率を高め、ユーザーの質問により的確に回答できるようにすることが本発明の目的である。

上記の目的を達成するために、本発明は、
自然言語で文を入力して、その入力文に対してコンピュータが言語解析を行い、応答するシステムであって、
自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行う入力文解析手段と、
前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積する知識データ登録手段と、
前記入力文が質問文の場合、インターネットに接続してＷｅｂ検索を行い、正規化された検索結果を取得する外部データ検索手段と、
前記正規化された検索結果をＷｅｂ検索結果データベースに格納する外部データ登録手段と、
前記入力文が質問文の場合、前記意味モデルデータベースと前記Ｗｅｂ検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力する回答生成手段と、
前記入力文が命令文の場合には、当該命令を実行する命令実行手段とを備えることを特徴とする。
これにより、蓄積済みの情報と、インターネットから取得してきた現在の状況とをつき合わせて推論しユーザーからの質問に答えることができる。その結果、回答不能の質問の割合が低下し、しかも現在の状況にマッチした的確な回答が可能となる。

上記の目的を達成するために、本発明は、
自然言語の文の入出力の際に、音声による入出力を可能としてもよい。
これにより、視覚障害者用の音声案内装置などへの利用も可能となる。また、このシステムを視覚障害者のコンピュータにＯＳとして組み込むならば、キー入力が不要となって格段に利便性が向上する。

上記の目的を達成するために、本発明は、
広告宣伝用データが登録される広告宣伝情報データベースを備え、前記回答生成手段は、前記質問文への回答文生成時に、当該質問文の内容に関連する広告宣伝用データを前記広告宣伝情報データベースから抽出し、回答文とともに出力してもよい。
これにより、質問に対して単に回答するだけでなく、関連情報の提供などの付加価値を添えることで、よりユーザーフレンドリにできる。

本出願人の従来発明（特許文献１）では、質問への回答の基礎となる情報を蓄積するためにはユーザーによる知識データの入力に依存していた。しかし、新たにインターネットを介した情報収集も併用することにより、知識データの質及び量において著しい飛躍が可能となる。この結果、多くの質問文への回答が可能となり、かつ回答の質が向上することになる。

第１の実施形態のシステム処理概要図である。第１の実施形態の機能ブロック図である。第１の実施形態の主要概念である素性構造を説明する図である。第１の実施形態の素性構造の具体例を説明する図である。第２の実施形態の機能ブロック図である。第３の実施形態の機能ブロック図である。従来発明のシステム処理概要図である。

《第１の実施形態》
以下、図面を参照しながら本発明の一実施の形態のシステム（以下、「本システム」）について説明する。

《１．本システムの概略》
まず、本システムの概略を図１に従い説明する。
キーボードなどの入力装置から、文が入力されると、この文が知識データ（平叙文）に属するか、質問データ（質問文）に属するか、命令データ（命令文）に属するかについて、形態素解析（Ａ）および構文解析（Ｂ）を行うことによって判定する。その結果平叙文と判定されればそのまま次の意味解析（Ｃ）に進む。一方、入力されたのが質問文或いは命令文（Ｄ）であると判定された場合は、そのまま次の意味解析（Ｃ）に進むと同時に、当該入力文は外部ＡＰＩによってＷｅｂ検索（Ｅ）にもかけられる。検索結果は正規化され、この正規化された情報（Ｆ）も意味解析（Ｃ）に送られ、解析の対象となる。
入力された文が平叙文であれば、意味モデルデータベース（Ｇ）に登録される。また、インターネット検索の検索結果（Ｆ）も、意味解析（Ｃ）で意味抽出が行われ、Ｗｅｂ検索結果データベース（Ｈ）に登録される。これらのデータベース（Ｇ、Ｈ）に登録されたデータは回答作成のための情報として使用されることになる。
入力文が質問文の場合には、さらに処理が続き、ＲＡＭなどの一時的記憶手段に格納され、意味検証（Ｉ）の対象となる。入力文が命令文（依頼要請文含む）の場合も、一時的に記憶手段に格納され、質問文と同様な処理の対象となる。
意味検証（Ｉ）では、意味解析（Ｃ）された質問につき、回答を得るために、意味モデルデータベース（Ｇ）を検索し、回答が得られれば、回答文を生成（Ｊ）してユーザー宛に出力する。意味モデルデータベース（Ｇ）で回答が得られなければ、Ｗｅｂ検索結果データベース（Ｈ）を検索し、回答が得られればユーザー宛に回答文を出力する。
このように入力された文が質問文或いは命令文の場合は、構文解析（Ｂ）と意味解析（Ｃ）を連続して行う内部的な処理と並行して、外部ＡＰＩを利用した処理（Ｅ）も行う。これにより、本システムの内部的処理に負荷をかけずに、蓄積された知識データに不足があってもこれを補うとともに、質問への回答のレベルを高めることができる。

《２．本システムの構成》
次に、本システムの構成を図２に従い説明する。図２は、機能に着目したブロック図である。
本システムは、インターネット接続が可能な、パソコンやスマートフォンなどのコンピュータ１によって構成されている。
コンピュータ１は、入力部２、出力部３、記憶部４、処理部５、ＡＰＩライブラリ部６を含む。

入力部２は、ユーザーが文を入力するための手段であり、キーボードなどがある。
出力部３は、ユーザーに質問への回答や、ユーザーに対する質問を出力するための手段であり、ディスプレイなどがある。

記憶部４には、単語辞書７、文法辞書８、シソーラス辞書９、意味辞書１０、意味モデルデータベース（以下、「意味モデルＤＢ」）１１、Ｗｅｂ検索結果データベース（以下、「Ｗｅｂ検索結果ＤＢ」）１２、入力文記憶手段１３を含む。他に、コンピュータ１が処理部５の各種処理を実行するためのプログラムを格納する手段、各種中間処理結果を格納する手段など（図示せず）を適宜備える。
単語辞書７、文法辞書８、シソーラス辞書９、および意味辞書１０は、本システムの運用開始時には準備され、運用後も適宜更新される。これらの辞書の作成や保守は、本システムによる応答処理とは別個に行われる。

処理部５は、入力文解析手段１４、知識データ登録手段１５、外部データ検索手段１６、外部データ登録手段１７、回答生成手段１８、命令実行手段１９を備える。
以下、処理部５の各手段１４〜１９について説明する。

入力文は入力文記憶手段１３に一時的に記憶され、入力文解析手段１４は、入力文について形態素解析、構文解析、及び意味解析を行う。
形態素解析は、単語辞書７を使って入力文を解析し、単語に分割する。
たとえば、入力文が「あなたはいくつですか」であれば、「あなた」「は」「いくつ」「です」「か」と分割する。

構文解析は、形態素解析により分割された単語を、文法辞書８を使って文法的にどのような構成をなしているか解析する。この構文解析により、入力文が平叙文か質問文かが判明する。たとえば、「あなたは還暦です」なら平叙文、「あなたは今年還暦ですか」や「あなたはいくつですか」なら質問文となる。構文解析では、Ｗｅｂ検索のための適切な検索キーを決定するためにシソーラス辞書９と意味辞書１０を参照することもある。Ｗｅｂ検索については後に詳しく説明する。

意味解析は、個々の単語の意味と構文解析の結果をもとに、シソーラス辞書９と意味辞書１０を使って文の意味を組み立てる。また、適宜文法辞書８を参照することもある。
シソーラス辞書９には、同義語、類義語などが登録されている。
意味辞書１０は、文書を構成する単語の意味情報の構造化辞書であり、意味抽象化ルール、記号処理ルール及びプランニングルールが定義されている。
意味辞書１０の意味抽象化ルールには、名詞抽象化ルール（例：接頭語、丁寧語）、動詞抽象化ルール（例：活用（過去形、現在形、未来形））、構文抽象化ルール（例：語順・複文・倒置文・接続）などがある。
意味辞書１０の記号処理ルールでは、数値あるいは論理的関係が成り立つものに対して応用される。次の年齢に関するルールも記号処理ルールの一例である。すなわち、年齢を質問された場合、質問した日の日付が誕生日前ならば（年齢＝本年−生年−１）であるが、誕生日後ならば（年齢＝本年−生年）と計算する。
つまり、単語の置き換えはシソーラス辞書９に登録されているが、その変化や言い回しのルールは意味辞書１０に登録されている。
意味辞書１０のプランニングルールには、大別して次の２種類のルールが登録されている。すなわち、第１に、回答取得制御に関するルールである。例えば、「天気」のように時間・地域により異なる回答を取得する場合に参照される。第２に、入力文が命令文の場合の実行制御に関するルールである。例えば、「印刷」のようなシステムコマンドが入力された場合に参照される。

知識データ登録手段１５は、平叙文と判明した文は意味モデルＤＢ１１に登録する。データの登録形態としては、文の形態もあれば、数値や項目だけのものもある。また、登録する場合、数値や論理関係に関するものは、入力文そのものでなく、単純化した記号にしておくと、記憶容量の節約になる。「ＸはＹ歳です」と登録するのではなく、「ａｇｅ（Ｘ、Ｙ）」と登録するのは、その一例である。

外部データ検索手段１６は、入力文解析手段１４によって入力文が質問文（命令文も含む）であると判定されると、ＡＰＩライブラリ部６に含まれるＷｅｂ検索ＡＰＩモジュールを呼び出して当該質問文のＷｅｂ検索を指示する。Ｗｅｂ検索ＡＰＩモジュールは通信インターフェイス部（図示せず）を介してインターネットＮにアクセスし、検索結果を取得する。この検索結果は外部データ検索手段１６によって正規化された後、入力文解析手段１４に渡され意味解析の対象となる。検索結果の正規化については後で詳しく説明する。

外部データ登録手段１７は、正規化されたＷｅｂ検索結果をＷｅｂ検索結果ＤＢ１２に登録する。

回答生成手段１８は、入力文が質問文の場合、質問の回答を得るために、当該入力文が元の文の意味が変わらない範囲内において入力文解析手段１４により抽象化された後、意味モデルＤＢ１１を検索し、適当な回答がないときはＷｅｂ検索結果ＤＢ１２を検索し、回答があれば回答出力文を生成して出力部３へ出力する。
回答生成手段１８は、この抽象化された文に対応する答を意味モデルＤＢ１１あるいはＷｅｂ検索結果ＤＢ１２から検索し、回答を得る。入力文の抽象化の方法には、構文解析後の入力文を同義語、派生語、敬語などを登録した辞書を用いて抽象化したり、入力文に論理式、論理記号、数値などが含まれている場合、入力文を意味の変わらない程度に意味辞書１０の記号処理ルールに則り、抽象化したりする方法がある。
上記ＤＢ１１，１２の検索の結果、適当な回答が得られなかった場合は、ユーザーに対してコンサルテーションを生成して出力する。コンサルテーションとは、質問文に対する回答が得られなかった場合に、回答に結びつくような質問を出したり、再質問をするように促したりするものである。

命令実行手段１９は、入力文が命令文であれば、これを実行する。たとえば、入力文が「ファイルＡを印刷せよ」であれば、回答テキストを出力するかわりに指定されたファイルの印刷処理を実行する。

《３．本システムの動作》
本システムの作用について、入力文が平叙文の場合、質問文の場合、命令文の場合のそれぞれについて順に説明する。

《３−１．平叙文入力時の動作》
「梅の花が２月に咲きます」という文が入力された場合を例にとり説明する。
構文解析により平叙文と判断され、直ちに意味解析の処理に進む。

詳しい説明のまえに、素性構造について述べる。本システムでは、論理型言語（例えば、本願の発明者らが開発したＡＺ−Ｐｒｏｌｏｇ）を使って、単語を素性構造として定義し、定義された単語は意味辞書１０に蓄積するが、素性構造とは、図３に示すように、ノード（型）とノード（型）とをエッジ（素性）と呼ばれる関係で定義するものである。意味辞書１０には各ノードがどのようなエッジ（素性）を持つかが定義されている。
たとえば、「花」というノードには、図４の左側に示すように、複数のエッジがあり、エッジの先のノードは未定義のままとする。この状態で、意味辞書１０に蓄積されており、シソーラス辞書９で花と分類されれば、エッジのような情報を保持できる。

「梅の花」がシソーラス辞書９で「花」と分類済であるならば、意味辞書１０に定義された「花」と同じ素性構造を持つ。「梅の花が２月に咲きます」と入力されたなら、意味辞書１０から「花」の素性構造を切り出し、図４の右側で示すようにエッジ（開花時期）のノードを「２月」として、意味モデルＤＢ１１に蓄積する。平叙文が入力されたときは、このようなデータベースへの登録処理を行い、「わかりました」等の出力文を生成して一連の処理が終了する。

《３−２．質問文入力時の動作》
《３−２−ａ．例１（一意の答が期待できる場合）》
「富士山の標高はいくらでしょうか」という文が入力されたとする。
構文解析により質問文と判定され、当該入力文は意味解析の処理対象となる。

質問文自体の解析処理と同時進行的に外部ＡＰＩによってＷｅｂＩ／Ｆを経由して、Ｗｅｂ検索の結果を取得する。そのために、外部データ検索手段１６は、外部の検索エンジンに検索キーを入力する。ここで検索キーとするのは「富士山の高さはいくらでしょうか」という質問自体でも、構造解析後の「富士山（ブランク）高さ」でもよい。
Ｗｅｂ検索結果として膨大な個数の文書が得られることは珍しくない。これらすべてを参照し入力質問文への回答に役立てるのは無意味である。そこで、検索結果の正規化が行われる。

ここでの「正規化」とは、しかるべき根拠によって検索結果を絞り込むことをいい、個数による絞り込みと質問の内容に依拠した絞り込みに大別される。
まず、個数による絞り込みについて述べる。経験的に言うと、人間がＷｅｂ検索の結果として参照するのは３０個程度である。本システムの基本的な考え方のひとつとして、人間と同じようなことをコンピュータにさせる、というものがある。そこで、コンピュータにも検索結果の先頭から予め定めた個数だけを処理対象とさせることにする。

次に質問の内容に依拠した絞り込みについて、上記の例文に即して具体的に説明する。
構文解析により、質問の求めるものが、標高であることが分かる。ここで、意味辞書１０に、標高は「数値＋高さの単位」であると定義済であるものとする。構文解析の処理において意味辞書１０を参照し、標高は「数値＋高さの単位」であることを得る。
外部データ検索手段１６は、検索キーとして質問に近い文字列「富士山の標高」や「富士山」＋「標高」を用いて検索する。例えば、３０文書をダウンロードしておいて、1つ1つの文書において出現する「数値＋高さの単位」を抽出し一時保存しておく。ここまでは正規化の準備段階である。
続いて、３０個の検索文書から抽出した「数値＋高さの単位」を集計し、最も頻度の高い「数値＋高さの単位」を検索結果の一次候補とする。この一次候補となった情報が正規化されたデータである。

通常の構文解析であればシソーラス辞書９や意味辞書１０の参照は不要である。しかし、本システムでは構文解析結果により必要に応じて検索キー（上記例では「標高」）に関する情報（上記例では「数値＋高さの単位」）を取得できるように意味辞書１０を参照することとした。また、質問文が「富士山の高さはいくらでしょうか」と入力されることもあるので構文解析ではシソーラス辞書９を参照して「高さ」は「標高」の同義語であるので、検索キーを「標高」、「高さ」のように複数設定できるようにしている。

では、上記の質問例に即した説明を続ける。
外部データ登録手段１７は、もっとも頻度の高いデータをＷｅｂ検索結果ＤＢ１２に登録する。登録の際、検索実行日と登録対象となったデータを含む文書が作成等された日付も含めるとよい。
質問文が入力されると、質問文自体の解析処理とＷｅｂ検索処理とが独立に実行されるが、Ｗｅｂ検索結果ＤＢ１２に登録されることによりＷｅｂ検索処理は終了したことになる。

意味解析後の質問文は、回答生成手段１８によって意味モデルＤＢ１１から回答が探され、見つかればそれが回答としてユーザーに出力される。この場合、Ｗｅｂ検索結果は参照されない。

もし、意味モデルＤＢ１１に富士山の標高が見つからなければ、Ｗｅｂ検索結果ＤＢ１２を参照し、取得した標高値が回答としてユーザーに出力される。Ｗｅｂ検索によって得られた情報は必ずしも信頼できるとは限らないので、回答とともにＷｅｂ検索の結果であることを明示することが好ましい。
このように、質問の回答を検索するとき意味モデルＤＢ１１をＷｅｂ検索結果ＤＢ１２に優先するのは信頼度に差があるからである。
しかし、ユーザーが入力した質問が明日の天気予報のように、時間・地域により求める回答が異なる場合は、意味辞書１０のプランニングルールに登録されているところ（例：「『天気予報』はＷｅｂ検索によって回答を取得する」）に従い回答を取得する。

ところで、上記の富士山の標高であれば、一種類の値が高い頻度で出現する。つまり一次候補のデータ個数は１個である。
しかし、「大山の標高はいくらですか」という質問をＷｅｂ検索すると、神奈川県の大山（オオヤマ）の標高と鳥取県の大山（ダイセン）の標高の２種類の値が高い頻度で出現する。つまり一次候補のデータが２個あるわけである。この場合は、本システムの回答の仕方として２とおりが考えられる。
２つの大山の標高を回答する場合と、どこの県にある大山なのかをユーザーに質問する場合の２とおりである。いずれにするかはシステムの仕様上の問題にすぎない。

《３−２−ｂ．例２（状況により回答が異なる場合）》
「梅の花の今年の開花はいつでしょうか」という文が入力されたとする。
意味モデルＤＢ１１には、「２月に開花」と登録されている場合、「２月」とただちに回答することはできない。その年によって数日とか数週間の違いがあるからである。そのために意味辞書１０に花の開花時期は一定でないことを登録しておく。このように意味辞書１０には曖昧であることを意味する情報を付加しうる実装とする。意味解析によって当該質問は曖昧さを伴うことがわかるので、回答生成手段１８は意味モデルＤＢ１１だけでなくＷｅｂ検索結果ＤＢ１２も参照する。

Ｗｅｂ検索結果ＤＢ１２に最近取得した結果であり、かつ文書作成日も最近の文書の中に「２月末の現時点でも開花していない」という情報があれば、これを回答としてユーザーに出力する。
［開花時期］と［今年］については該当する情報が意味モデルＤＢ１１にないとすると、特許文献１に記載の従来発明では「分かりません」という情報しか返せなかった。しかし本システムでは、Ｗｅｂ検索結果も併用するので、「２月になっても未開花」とか「今年は例年より遅い」といった回答ができるようになった。
なお、Ｗｅｂ検索によっても最近の情報が見つからなければ、意味モデルＤＢ１１の情報に基づいて「例年であれば２月」と回答すればよい。

なお、Ｗｅｂ検索で得られた情報は、取得日時が新しくても内容が古いことがある。そのため、情報がＷｅｂ上に公開された年などの時期を考慮して正規化する。
例えば、「上野動物園の入園者数は？」という質問文についてＷｅｂ検索をすると、「２９０万人」、「３００万人」、「３５０万人」の３つの値の頻度が高く、各数値に対応する年度が、２００８年、２００９年、２００７年であったとする。これらの３個の一次候補の中から直近の２００９年のデータを取り出し、「最近の入園者数は約３００万人」と回答することになる。

《３−３．命令文入力時の動作》
命令文入力の場合は、処理の流れはほとんど質問文入力の場合と同様であるが、最後に「実行」を伴う点で相違する。例えば、「ファイル“ＦＩＬＥ＿Ａ”を印刷してください」という文が入力されたとする。構文解析により命令文と判定され、当該入力文は意味解析の処理対象となる。意味辞書１０では、命令ならプランニングルール内にシステム実行制御コマンドが定義されている。構文解析にて述語と判定された「印刷（する）」がシステムコマンド「Ｐｒｉｎｔ」と定義され、かつ、対象となるファイルが具体的なシステム上のファイル名として意味モデルＤＢ１１に定義されているならば、命令実行手段１９は自然言語「印刷」をコマンド「Ｐｒｉｎｔ」に変換し、所定のプリンタにファイル“ＦＩＬＥ＿Ａ”を印刷させる。

以上述べたように、本システムが自然言語に対して対応する実行パターンは、平叙文であればデータベースへの登録である。これに対し、質問文であれば回答であり、命令文であれば実行あるいは回答であって、回答や実行などの本システムによる処理が終了したときは、一時的に格納されていた入力文記憶手段１３から当該入力文はログに移され、入力文記憶手段１３より削除される。

《第２の実施形態》
以下、本発明の第２の実施の形態のシステムについて説明する。
このシステムは第１の実施の形態と比べ、音声による入力および出力が可能な点でのみ相違する。以下、図５を参照しながら相違点のみを説明するが、第１の実施の形態と同一内容については図２と同一の符号を用いる。

第２の実施形態のシステム２１では、知識や質問の入力は音声でも可能であり、入力手段２２にはキーボードだけでなくマイクなども含まれる。
音声入力の場合には、音声認識部２３を備え、公知の方法により音声入力された言葉を文字列に変換する。たとえば、音声認識部２３は、「うめ」という発話音声からは“ume”という３文字の文字列を生成する。この生成された文字列は文字入力されたデータと同様に形態素解析、構文解析、意味解析の対象となる。

システム２１では、回答やコンサルテーションの出力も音声によることが可能であり、出力手段２４にはディスプレイやプリンタだけでなくスピーカなども含まれる。音声出力の場合には、発話エンジン部２５を備え、公知の方法によりテキストを音声に変換する。
このように音声による入力と出力の機能があれば、本システムは視覚障害者にも適合する。

《第３の実施形態》
以下、本発明の第３の実施の形態のシステムについて説明する。
この実施の形態は第１の実施の形態と比べ、質問文への回答時に広告宣伝情報も出力する点でのみ相違する。以下、図６を参照しながら相違点のみを説明するが、第１の実施の形態と同一内容については図２と同一の符号を用いる。

このシステム３１は広告宣伝用データを蓄積しているデータベース３２も備えている。
広告宣伝情報ＤＢ３２には、このシステム３１に平叙文として入力されるデータを蓄積してもよく、このシステム３１の実行とは別に手入力などの方法で蓄積してもよい。
回答生成手段３３は、質問文への回答文生成時に、当該質問文の内容に関連する広告宣伝用データを広告宣伝情報ＤＢ３２から抽出し、回答に添えて出力することができる。
たとえば、「東京の梅の名所はどこですか」という質問文が入力されたとき、「新宿御苑、小石川後楽園、・・・」という回答とともに、付近の和菓子店や娯楽施設の広告を載せた回答文を出力する。特にスマートフォンなど、位置情報を有する通信機器からのアクセスでは、ユーザーの近くにある店舗等の広告を載せることができる。

上記の第１〜第３の実施の形態では、一連の知識応答のためのプログラムが単体のコンピュータに実装され、このコンピュータがインターネットと接続しつつ人間と知識応答をする装置として動作していた。
このシステムを組み込んだコンピュータはさまざまな用途に活用できる。たとえば、行政機関における来館者への案内装置として利用できる。図書館に調べ物に来た学生が「江戸時代の町人の生活に関する本はどこにありますか」とキー入力すると、画面に当該テーマに関連する書籍の名称と書棚とが画面表示される。また、視覚障害者のパソコンに音声入出力が可能なシステムを組み込んでおけば、「フォルダＤ：￥ＭｙＤｏｃｕｍｅｎｔの直下にあるファイル名を教えてください」とマイクに向かって言うと、該当するファイル名が音声で読み上げられる。

しかし、知識応答のためのプログラムはＷｅｂ上のサービス（例：クラウドサービス）として提供され、ユーザーのコンピュータ（スマートフォンなども含む）は必要なときにこのサービスを利用してもよい。
あるいは、本発明の知識応答のためのプログラムおよび入力文の解析に用いる各種辞書は、将来的にコンピュータのＯＳの一部を構成するモジュールとしてシステムに組み込まれることも考えられる。
要は、インターネットの検索機能を付加して、マン・マシンインターフェイスの向上を図ったことが重要なのであって、本発明のシステムを案内装置などの専用機に組み込むか、汎用的なコンピュータに機能の一部として組み込むかは問題ではない。

なお、意味モデルＤＢに蓄積されるデータに制限はない。汎用データでも良いし専用データでも良い。たとえば専用データとして、本発明のシステムのユーザーが商品販売会社であれば、その方面のデータを重視あるいは特化することになる。更に関連情報として顧客情報、仕入情報、売上情報などの営業情報を意味モデルＤＢに付加してもよい。

上記の実施形態で検索結果の絞り込み個数として３０文書程度と例示した。回答が一意的に決まるものは、これで十分であるが、市場動向や意識調査に関する内容のように、抽出文書は多い程よいことがある。したがって、検索キーによって絞り込み個数を可変にし、例えば意味辞書１０に、「市場動向、１０００文書」のように定義し、定義がなければデフォルト値（例：３０文書）をとるようにする方法がある。

人間とコンピュータとのインターフェイスとして自然言語を使う際、インターネットから取得した情報も利用するので、人間にとってコンピュータの利用価値が一層高まる。

１：コンピュータ、１１：意味モデルデータベース、１２：Ｗｅｂ検索結果データベース、１４：入力文解析手段、１５：知識データ登録手段、１６：外部データ検索手段、
１７：外部データ登録手段、１８：回答生成手段、１９：命令実行手段、
２１：コンピュータ、
３１：コンピュータ、３２：広告宣伝情報データベース、３３：回答生成手段、
Ｎ：インターネット

Claims

自然言語で文を入力して、その入力文に対してコンピュータが言語解析を行い、応答するシステムであって、
自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行う入力文解析手段と、
前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積する知識データ登録手段と、
前記入力文が質問文の場合、インターネットに接続してＷｅｂ検索を行い、正規化された検索結果を取得する外部データ検索手段と、
前記正規化された検索結果をＷｅｂ検索結果データベースに格納する外部データ登録手段と、
前記入力文が質問文の場合、前記意味モデルデータベースと前記Ｗｅｂ検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力する回答生成手段と、
前記入力文が命令文の場合には、当該命令を実行する命令実行手段とを備えることを特徴とする知識応答システム。
自然言語の文の入出力の際に、音声による入出力を可能とすることを特徴とする請求項１に記載の知識応答システム。
広告宣伝用データが登録される広告宣伝情報データベースを備え、前記回答生成手段は、前記質問文への回答文生成時に、当該質問文の内容に関連する広告宣伝用データを前記広告宣伝情報データベースから抽出し、回答文とともに出力することを特徴とする請求項１に記載の知識応答システム。
自然言語で文を入力して、その入力文に対してコンピュータが言語解析を行い、何らかの応答をする方法であって、
インターネットに接続可能なコンピュータが、
自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行うステップと、
前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積するステップと、
前記入力文が質問文の場合、インターネットに接続してＷｅｂ検索を行い、正規化された検索結果を取得するステップと、
前記正規化された検索結果をＷｅｂ検索結果データベースに格納するステップと、
前記入力文が質問文の場合、前記意味モデルデータベースと前記Ｗｅｂ検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力するステップと、
前記入力文が命令文の場合には、当該命令を実行するステップと、
を行うことを特徴とする知識応答方法。
インターネットに接続可能なコンピュータに、
自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行うステップと、
前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積するステップと、
前記入力文が質問文の場合、インターネットに接続してＷｅｂ検索を行い、正規化された検索結果を取得するステップと、
前記正規化された検索結果をＷｅｂ検索結果データベースに格納するステップと、
前記入力文が質問文の場合、前記意味モデルデータベースと前記Ｗｅｂ検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力するステップと、
前記入力文が命令文の場合には、当該命令を実行するステップと、
を実行させることを特徴とするコンピュータプログラム。