JP2013190985A - 知識応答システム、方法およびコンピュータプログラム - Google Patents

知識応答システム、方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2013190985A
JP2013190985A JP2012056496A JP2012056496A JP2013190985A JP 2013190985 A JP2013190985 A JP 2013190985A JP 2012056496 A JP2012056496 A JP 2012056496A JP 2012056496 A JP2012056496 A JP 2012056496A JP 2013190985 A JP2013190985 A JP 2013190985A
Authority
JP
Japan
Prior art keywords
sentence
input
analysis
semantic
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012056496A
Other languages
English (en)
Inventor
Sakae Takeuchi
栄 竹内
Teru Inaba
輝 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2012056496A priority Critical patent/JP2013190985A/ja
Publication of JP2013190985A publication Critical patent/JP2013190985A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然言語で入力された質問文に対して、コンピュータの回答率を高め、かつ、より的確な回答を可能とする知識応答システムを提供する。
【解決手段】自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行い、入力文が平叙文の場合、知識データとして該入力文を意味モデルデータベースに蓄積する。入力文が質問文の場合、インターネットに接続してWeb検索を行い、正規化された検索結果を取得して、Web検索結果データベースに格納する。入力文が質問文の場合、意味モデルデータベースと、必要に応じてWeb検索結果データベースとから知識データを抽出して質問文と比較し意味検証を行い、回答が得られたならば回答文を生成して出力する。このように、蓄積された知識だけでなくWeb検索によって得られる情報もユーザーへの回答生成に利用する。
【選択図】図1

Description

自然言語で入力された文に対してコンピュータが文を認識することにより、自然言語によるマン・マシンインターフェイスを可能とする知識応答システムに関する。
かつて、人間と機械(コンピュータ)との間での会話は、限られた数の命令語によって行われていた。たとえば、“PRINT FILE-A”と入力すれば、コンピュータはファイルFILE-Aの内容を印刷する、といったようにである。PRINTという人間が理解できる単語を用いていても、これは所詮コンピュータ言語すなわちコンピュータ側から作られた言語である。つまり、人間の脳をコンピュータの脳に合わせるわけであるから、覚えるには、やはりある程度の訓練が必要である。そのことが、人間とコンピュータの垣根を高いものとしていた。この垣根を低くするために、メニュー方式や対話形式によるマン・マシンインターフェイスが考案され、さまざまな分野で利用されてきている。しかしこれらの方式は、いわば使い勝手の良さの改良であって、人間とコンピュータの垣根の問題に根本的に迫るものではない。
人間が日常話している言語すなわち自然言語をコンピュータが理解できるようになれば、上記のような人間とコンピュータの間に存在する垣根もどんどん低くなっていくに違いない。つまり、人間の脳にコンピュータを合わせるわけである。このような観点から近年、さまざまなアプローチで自然言語によるマン・マシンインターフェイスが研究されている。その結果、この分野に関する発明も数多く特許出願されている。
本出願人による特開2002−215661(特許文献1)もそのひとつである。この発明の前提となる考え方は、人間が機械と会話するには、自然言語によるインターフェイスが必要となるというものである。文によってなされた質問に対して文によって回答を行うには、文を理解し、文を作成して回答する必要がある。しかし、回答文が常に用意されているわけではない。そこで、このような障害をどのように乗り越えるか、が課題となるが、特許文献1に開示の発明は当該課題を自然言語で入力された文に対して、すでに知識として蓄えられたデータ(知識データ)から何らかの回答を引き出して出力することにより解決しようとするものである。
以下、特開2002−215661に記載の「自然言語インターフェイス知識応答システム」について図7を参照しながら簡単に説明する。
図7のシステム処理概念図に示すように、この従来発明で扱う入力文は平叙文すなわち知識入力(a)と質問文入力(b)である。
入力文が知識データに属するか、質問データに属するか、命令データに属するかは、形態素解析(c)、構文解析(d)、および意味解析(e)を行うことによって判明する。
入力文が平叙文の場合には上記解析後、意味モデルデータベース(知識用)に登録して将来の知識データとして使用される。入力文が質問文の場合には上記解析後、意味モデルデータベース(質問用)に一時的に記憶される。後続する意味検証(f)が、これを処理することになる。なお、入力文が命令文の場合には、最後に何らかの実行を伴う点で質問文と相違するが、他は質問文とほぼ同様なので概念図からは省略した。
意味検証(f)では、入力文が質問文の場合、意味解析(e)によって得られた解析結果を、意味モデルデータベース(知識用)に登録してある知識と比較・検討し、当該質問に対しての回答を得る。質問の解析結果に不確定値があれば、意味モデルデータベース(知識用)から検索し、その結果確定すれば出力文生成(g)の処理において回答文が生成され、ユーザー宛に出力する。命令文の場合には命令が伴うことになる。
以上が、従来発明の処理概要であるが、その目的は、自然言語によるマン・マシンインターフェイスを実現するにとどまるのではなく、何らかの形で質問に対する応答を行うことである。自然言語で入力された質問文に対して、質問に対応する知識データが意味モデルデータベース(知識用)に有ればそのまま出力する。しかし、知識データが無い場合でも、「該当する答がありません」という回答は極力排除する。そのためには、意味解析(e)の処理によって質問を抽象化し、意味検証(f)の処理では、抽象化した文に対して、知識データを順次照らし合わせて、比較・検討を行い、最もふさわしい回答文を導き、それを出力する。このような努力を行っても、適当な回答が探索できなかったり、質問の意味を理解できなかったりする場合には、出力文生成(g)の処理において回答文の出力のかわりに再質問を行ったり、回答に必要な知識データの入力を要求したりする。
特開2002−215661号公報
上記の特許文献1では、回答を得るに際し、質問文の意味の抽象化を行って広範囲の推論を行っているために、質問文に対する回答文を具体的・直截的な形で知識データベースに用意しておく必要がない。また、質問に対する直接的な回答しかできないというのでは自然言語を使っているとは言いがたい。近い回答、関連する回答、補足的な説明を加えた回答、どうしても回答不能なら逆質問、これらも上記の特許文献1では目指している。
しかしながら、どのような質問文が入力されるかは予測がつかない。いずれの質問に対しても、何らかの回答を行うためには知識データベースに蓄積されているデータ量がものをいう。データ量が貧弱であれば、ユーザーが期待するような回答ができず、システムの意義が失われる。
ところで、ある米国の研究所では100万語以上の単語を辞書に登録しているところがあるそうであるが、それでも人間と機械との自然会話はできないという。辞書への登録作業が旧態依然としていたのでは、あまり進歩・発展は望めないということである。また“量の問題”だけではなく、“質の問題”もある。鮮度、専門性等である。ところが、特許文献1では、知識データとして登録されるのは主としてユーザーによって入力された平叙文である。これでは質問への回答が十分にできず(低回答率)、たとえ回答できたとしても鮮度、専門性において的確な回答ができないおそれがありうる。
このような現状に鑑み、本出願人はインターネットの活用を提案する。すなわち、インターネットの急速な普及により、現在ではインターネットを介して各種の情報を取得することが広く行われている。しかも検索エンジンの進歩により、単語や短文をキーワードとして入力するときわめて短時間に多量の検索結果を取得できる。このインターネットを利用した検索機能は、今や一種の社会インフラともいうべきものである。
この検索機能に着目し、これを活用することによって、蓄積済みの知識データの不十分さを補い、回答率を高め、ユーザーの質問により的確に回答できるようにすることが本発明の目的である。
上記の目的を達成するために、本発明は、
自然言語で文を入力して、その入力文に対してコンピュータが言語解析を行い、応答するシステムであって、
自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行う入力文解析手段と、
前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積する知識データ登録手段と、
前記入力文が質問文の場合、インターネットに接続してWeb検索を行い、正規化された検索結果を取得する外部データ検索手段と、
前記正規化された検索結果をWeb検索結果データベースに格納する外部データ登録手段と、
前記入力文が質問文の場合、前記意味モデルデータベースと前記Web検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力する回答生成手段と、
前記入力文が命令文の場合には、当該命令を実行する命令実行手段とを備えることを特徴とする。
これにより、蓄積済みの情報と、インターネットから取得してきた現在の状況とをつき合わせて推論しユーザーからの質問に答えることができる。その結果、回答不能の質問の割合が低下し、しかも現在の状況にマッチした的確な回答が可能となる。
上記の目的を達成するために、本発明は、
自然言語の文の入出力の際に、音声による入出力を可能としてもよい。
これにより、視覚障害者用の音声案内装置などへの利用も可能となる。また、このシステムを視覚障害者のコンピュータにOSとして組み込むならば、キー入力が不要となって格段に利便性が向上する。
上記の目的を達成するために、本発明は、
広告宣伝用データが登録される広告宣伝情報データベースを備え、前記回答生成手段は、前記質問文への回答文生成時に、当該質問文の内容に関連する広告宣伝用データを前記広告宣伝情報データベースから抽出し、回答文とともに出力してもよい。
これにより、質問に対して単に回答するだけでなく、関連情報の提供などの付加価値を添えることで、よりユーザーフレンドリにできる。
本出願人の従来発明(特許文献1)では、質問への回答の基礎となる情報を蓄積するためにはユーザーによる知識データの入力に依存していた。しかし、新たにインターネットを介した情報収集も併用することにより、知識データの質及び量において著しい飛躍が可能となる。この結果、多くの質問文への回答が可能となり、かつ回答の質が向上することになる。
第1の実施形態のシステム処理概要図である。 第1の実施形態の機能ブロック図である。 第1の実施形態の主要概念である素性構造を説明する図である。 第1の実施形態の素性構造の具体例を説明する図である。 第2の実施形態の機能ブロック図である。 第3の実施形態の機能ブロック図である。 従来発明のシステム処理概要図である。
《第1の実施形態》
以下、図面を参照しながら本発明の一実施の形態のシステム(以下、「本システム」)について説明する。
《1.本システムの概略》
まず、本システムの概略を図1に従い説明する。
キーボードなどの入力装置から、文が入力されると、この文が知識データ(平叙文)に属するか、質問データ(質問文)に属するか、命令データ(命令文)に属するかについて、形態素解析(A)および構文解析(B)を行うことによって判定する。その結果平叙文と判定されればそのまま次の意味解析(C)に進む。一方、入力されたのが質問文或いは命令文(D)であると判定された場合は、そのまま次の意味解析(C)に進むと同時に、当該入力文は外部APIによってWeb検索(E)にもかけられる。検索結果は正規化され、この正規化された情報(F)も意味解析(C)に送られ、解析の対象となる。
入力された文が平叙文であれば、意味モデルデータベース(G)に登録される。また、インターネット検索の検索結果(F)も、意味解析(C)で意味抽出が行われ、Web検索結果データベース(H)に登録される。これらのデータベース(G、H)に登録されたデータは回答作成のための情報として使用されることになる。
入力文が質問文の場合には、さらに処理が続き、RAMなどの一時的記憶手段に格納され、意味検証(I)の対象となる。入力文が命令文(依頼要請文含む)の場合も、一時的に記憶手段に格納され、質問文と同様な処理の対象となる。
意味検証(I)では、意味解析(C)された質問につき、回答を得るために、意味モデルデータベース(G)を検索し、回答が得られれば、回答文を生成(J)してユーザー宛に出力する。意味モデルデータベース(G)で回答が得られなければ、Web検索結果データベース(H)を検索し、回答が得られればユーザー宛に回答文を出力する。
このように入力された文が質問文或いは命令文の場合は、構文解析(B)と意味解析(C)を連続して行う内部的な処理と並行して、外部APIを利用した処理(E)も行う。これにより、本システムの内部的処理に負荷をかけずに、蓄積された知識データに不足があってもこれを補うとともに、質問への回答のレベルを高めることができる。
《2.本システムの構成》
次に、本システムの構成を図2に従い説明する。図2は、機能に着目したブロック図である。
本システムは、インターネット接続が可能な、パソコンやスマートフォンなどのコンピュータ1によって構成されている。
コンピュータ1は、入力部2、出力部3、記憶部4、処理部5、APIライブラリ部6を含む。
入力部2は、ユーザーが文を入力するための手段であり、キーボードなどがある。
出力部3は、ユーザーに質問への回答や、ユーザーに対する質問を出力するための手段であり、ディスプレイなどがある。
記憶部4には、単語辞書7、文法辞書8、シソーラス辞書9、意味辞書10、意味モデルデータベース(以下、「意味モデルDB」)11、Web検索結果データベース(以下、「Web検索結果DB」)12、入力文記憶手段13を含む。他に、コンピュータ1が処理部5の各種処理を実行するためのプログラムを格納する手段、各種中間処理結果を格納する手段など(図示せず)を適宜備える。
単語辞書7、文法辞書8、シソーラス辞書9、および意味辞書10は、本システムの運用開始時には準備され、運用後も適宜更新される。これらの辞書の作成や保守は、本システムによる応答処理とは別個に行われる。
処理部5は、入力文解析手段14、知識データ登録手段15、外部データ検索手段16、外部データ登録手段17、回答生成手段18、命令実行手段19を備える。
以下、処理部5の各手段14〜19について説明する。
入力文は入力文記憶手段13に一時的に記憶され、入力文解析手段14は、入力文について形態素解析、構文解析、及び意味解析を行う。
形態素解析は、単語辞書7を使って入力文を解析し、単語に分割する。
たとえば、入力文が「あなたはいくつですか」であれば、「あなた」「は」「いくつ」「です」「か」と分割する。
構文解析は、形態素解析により分割された単語を、文法辞書8を使って文法的にどのような構成をなしているか解析する。この構文解析により、入力文が平叙文か質問文かが判明する。たとえば、「あなたは還暦です」なら平叙文、「あなたは今年還暦ですか」や「あなたはいくつですか」なら質問文となる。構文解析では、Web検索のための適切な検索キーを決定するためにシソーラス辞書9と意味辞書10を参照することもある。Web検索については後に詳しく説明する。
意味解析は、個々の単語の意味と構文解析の結果をもとに、シソーラス辞書9と意味辞書10を使って文の意味を組み立てる。また、適宜文法辞書8を参照することもある。
シソーラス辞書9には、同義語、類義語などが登録されている。
意味辞書10は、文書を構成する単語の意味情報の構造化辞書であり、意味抽象化ルール、記号処理ルール及びプランニングルールが定義されている。
意味辞書10の意味抽象化ルールには、名詞抽象化ルール(例:接頭語、丁寧語)、動詞抽象化ルール(例:活用(過去形、現在形、未来形))、構文抽象化ルール(例:語順・複文・倒置文・接続)などがある。
意味辞書10の記号処理ルールでは、数値あるいは論理的関係が成り立つものに対して応用される。次の年齢に関するルールも記号処理ルールの一例である。すなわち、年齢を質問された場合、質問した日の日付が誕生日前ならば(年齢=本年−生年−1)であるが、誕生日後ならば(年齢=本年−生年)と計算する。
つまり、単語の置き換えはシソーラス辞書9に登録されているが、その変化や言い回しのルールは意味辞書10に登録されている。
意味辞書10のプランニングルールには、大別して次の2種類のルールが登録されている。すなわち、第1に、回答取得制御に関するルールである。例えば、「天気」のように時間・地域により異なる回答を取得する場合に参照される。第2に、入力文が命令文の場合の実行制御に関するルールである。例えば、「印刷」のようなシステムコマンドが入力された場合に参照される。
知識データ登録手段15は、平叙文と判明した文は意味モデルDB11に登録する。データの登録形態としては、文の形態もあれば、数値や項目だけのものもある。また、登録する場合、数値や論理関係に関するものは、入力文そのものでなく、単純化した記号にしておくと、記憶容量の節約になる。「XはY歳です」と登録するのではなく、「age(X、Y)」と登録するのは、その一例である。
外部データ検索手段16は、入力文解析手段14によって入力文が質問文(命令文も含む)であると判定されると、APIライブラリ部6に含まれるWeb検索APIモジュールを呼び出して当該質問文のWeb検索を指示する。Web検索APIモジュールは通信インターフェイス部(図示せず)を介してインターネットNにアクセスし、検索結果を取得する。この検索結果は外部データ検索手段16によって正規化された後、入力文解析手段14に渡され意味解析の対象となる。検索結果の正規化については後で詳しく説明する。
外部データ登録手段17は、正規化されたWeb検索結果をWeb検索結果DB12に登録する。
回答生成手段18は、入力文が質問文の場合、質問の回答を得るために、当該入力文が元の文の意味が変わらない範囲内において入力文解析手段14により抽象化された後、意味モデルDB11を検索し、適当な回答がないときはWeb検索結果DB12を検索し、回答があれば回答出力文を生成して出力部3へ出力する。
回答生成手段18は、この抽象化された文に対応する答を意味モデルDB11あるいはWeb検索結果DB12から検索し、回答を得る。入力文の抽象化の方法には、構文解析後の入力文を同義語、派生語、敬語などを登録した辞書を用いて抽象化したり、入力文に論理式、論理記号、数値などが含まれている場合、入力文を意味の変わらない程度に意味辞書10の記号処理ルールに則り、抽象化したりする方法がある。
上記DB11,12の検索の結果、適当な回答が得られなかった場合は、ユーザーに対してコンサルテーションを生成して出力する。コンサルテーションとは、質問文に対する回答が得られなかった場合に、回答に結びつくような質問を出したり、再質問をするように促したりするものである。
命令実行手段19は、入力文が命令文であれば、これを実行する。たとえば、入力文が「ファイルAを印刷せよ」であれば、回答テキストを出力するかわりに指定されたファイルの印刷処理を実行する。
《3.本システムの動作》
本システムの作用について、入力文が平叙文の場合、質問文の場合、命令文の場合のそれぞれについて順に説明する。
《3−1.平叙文入力時の動作》
「梅の花が2月に咲きます」という文が入力された場合を例にとり説明する。
構文解析により平叙文と判断され、直ちに意味解析の処理に進む。
詳しい説明のまえに、素性構造について述べる。本システムでは、論理型言語(例えば、本願の発明者らが開発したAZ−Prolog)を使って、単語を素性構造として定義し、定義された単語は意味辞書10に蓄積するが、素性構造とは、図3に示すように、ノード(型)とノード(型)とをエッジ(素性)と呼ばれる関係で定義するものである。意味辞書10には各ノードがどのようなエッジ(素性)を持つかが定義されている。
たとえば、「花」というノードには、図4の左側に示すように、複数のエッジがあり、エッジの先のノードは未定義のままとする。この状態で、意味辞書10に蓄積されており、シソーラス辞書9で花と分類されれば、エッジのような情報を保持できる。
「梅の花」がシソーラス辞書9で「花」と分類済であるならば、意味辞書10に定義された「花」と同じ素性構造を持つ。「梅の花が2月に咲きます」と入力されたなら、意味辞書10から「花」の素性構造を切り出し、図4の右側で示すようにエッジ(開花時期)のノードを「2月」として、意味モデルDB11に蓄積する。平叙文が入力されたときは、このようなデータベースへの登録処理を行い、「わかりました」等の出力文を生成して一連の処理が終了する。
《3−2.質問文入力時の動作》
《3−2−a.例1(一意の答が期待できる場合)》
「富士山の標高はいくらでしょうか」という文が入力されたとする。
構文解析により質問文と判定され、当該入力文は意味解析の処理対象となる。
質問文自体の解析処理と同時進行的に外部APIによってWebI/Fを経由して、Web検索の結果を取得する。そのために、外部データ検索手段16は、外部の検索エンジンに検索キーを入力する。ここで検索キーとするのは「富士山の高さはいくらでしょうか」という質問自体でも、構造解析後の「富士山(ブランク)高さ」でもよい。
Web検索結果として膨大な個数の文書が得られることは珍しくない。これらすべてを参照し入力質問文への回答に役立てるのは無意味である。そこで、検索結果の正規化が行われる。
ここでの「正規化」とは、しかるべき根拠によって検索結果を絞り込むことをいい、個数による絞り込みと質問の内容に依拠した絞り込みに大別される。
まず、個数による絞り込みについて述べる。経験的に言うと、人間がWeb検索の結果として参照するのは30個程度である。本システムの基本的な考え方のひとつとして、人間と同じようなことをコンピュータにさせる、というものがある。そこで、コンピュータにも検索結果の先頭から予め定めた個数だけを処理対象とさせることにする。
次に質問の内容に依拠した絞り込みについて、上記の例文に即して具体的に説明する。
構文解析により、質問の求めるものが、標高であることが分かる。ここで、意味辞書10に、標高は「数値+高さの単位」であると定義済であるものとする。構文解析の処理において意味辞書10を参照し、標高は「数値+高さの単位」であることを得る。
外部データ検索手段16は、検索キーとして質問に近い文字列「富士山の標高」や「富士山」+「標高」を用いて検索する。例えば、30文書をダウンロードしておいて、1つ1つの文書において出現する「数値+高さの単位」を抽出し一時保存しておく。ここまでは正規化の準備段階である。
続いて、30個の検索文書から抽出した「数値+高さの単位」を集計し、最も頻度の高い「数値+高さの単位」を検索結果の一次候補とする。この一次候補となった情報が正規化されたデータである。
通常の構文解析であればシソーラス辞書9や意味辞書10の参照は不要である。しかし、本システムでは構文解析結果により必要に応じて検索キー(上記例では「標高」)に関する情報(上記例では「数値+高さの単位」)を取得できるように意味辞書10を参照することとした。また、質問文が「富士山の高さはいくらでしょうか」と入力されることもあるので構文解析ではシソーラス辞書9を参照して「高さ」は「標高」の同義語であるので、検索キーを「標高」、「高さ」のように複数設定できるようにしている。
では、上記の質問例に即した説明を続ける。
外部データ登録手段17は、もっとも頻度の高いデータをWeb検索結果DB12に登録する。登録の際、検索実行日と登録対象となったデータを含む文書が作成等された日付も含めるとよい。
質問文が入力されると、質問文自体の解析処理とWeb検索処理とが独立に実行されるが、Web検索結果DB12に登録されることによりWeb検索処理は終了したことになる。
意味解析後の質問文は、回答生成手段18によって意味モデルDB11から回答が探され、見つかればそれが回答としてユーザーに出力される。この場合、Web検索結果は参照されない。
もし、意味モデルDB11に富士山の標高が見つからなければ、Web検索結果DB12を参照し、取得した標高値が回答としてユーザーに出力される。Web検索によって得られた情報は必ずしも信頼できるとは限らないので、回答とともにWeb検索の結果であることを明示することが好ましい。
このように、質問の回答を検索するとき意味モデルDB11をWeb検索結果DB12に優先するのは信頼度に差があるからである。
しかし、ユーザーが入力した質問が明日の天気予報のように、時間・地域により求める回答が異なる場合は、意味辞書10のプランニングルールに登録されているところ(例:「『天気予報』はWeb検索によって回答を取得する」)に従い回答を取得する。
ところで、上記の富士山の標高であれば、一種類の値が高い頻度で出現する。つまり一次候補のデータ個数は1個である。
しかし、「大山の標高はいくらですか」という質問をWeb検索すると、神奈川県の大山(オオヤマ)の標高と鳥取県の大山(ダイセン)の標高の2種類の値が高い頻度で出現する。つまり一次候補のデータが2個あるわけである。この場合は、本システムの回答の仕方として2とおりが考えられる。
2つの大山の標高を回答する場合と、どこの県にある大山なのかをユーザーに質問する場合の2とおりである。いずれにするかはシステムの仕様上の問題にすぎない。
《3−2−b.例2(状況により回答が異なる場合)》
「梅の花の今年の開花はいつでしょうか」という文が入力されたとする。
意味モデルDB11には、「2月に開花」と登録されている場合、「2月」とただちに回答することはできない。その年によって数日とか数週間の違いがあるからである。そのために意味辞書10に花の開花時期は一定でないことを登録しておく。このように意味辞書10には曖昧であることを意味する情報を付加しうる実装とする。意味解析によって当該質問は曖昧さを伴うことがわかるので、回答生成手段18は意味モデルDB11だけでなくWeb検索結果DB12も参照する。
Web検索結果DB12に最近取得した結果であり、かつ文書作成日も最近の文書の中に「2月末の現時点でも開花していない」という情報があれば、これを回答としてユーザーに出力する。
[開花時期]と[今年]については該当する情報が意味モデルDB11にないとすると、特許文献1に記載の従来発明では「分かりません」という情報しか返せなかった。しかし本システムでは、Web検索結果も併用するので、「2月になっても未開花」とか「今年は例年より遅い」といった回答ができるようになった。
なお、Web検索によっても最近の情報が見つからなければ、意味モデルDB11の情報に基づいて「例年であれば2月」と回答すればよい。
なお、Web検索で得られた情報は、取得日時が新しくても内容が古いことがある。そのため、情報がWeb上に公開された年などの時期を考慮して正規化する。
例えば、「上野動物園の入園者数は?」という質問文についてWeb検索をすると、「290万人」、「300万人」、「350万人」の3つの値の頻度が高く、各数値に対応する年度が、2008年、2009年、2007年であったとする。これらの3個の一次候補の中から直近の2009年のデータを取り出し、「最近の入園者数は約300万人」と回答することになる。
《3−3.命令文入力時の動作》
命令文入力の場合は、処理の流れはほとんど質問文入力の場合と同様であるが、最後に「実行」を伴う点で相違する。例えば、「ファイル“FILE_A”を印刷してください」という文が入力されたとする。構文解析により命令文と判定され、当該入力文は意味解析の処理対象となる。意味辞書10では、命令ならプランニングルール内にシステム実行制御コマンドが定義されている。構文解析にて述語と判定された「印刷(する)」がシステムコマンド「Print」と定義され、かつ、対象となるファイルが具体的なシステム上のファイル名として意味モデルDB11に定義されているならば、命令実行手段19は自然言語「印刷」をコマンド「Print」に変換し、所定のプリンタにファイル“FILE_A”を印刷させる。
以上述べたように、本システムが自然言語に対して対応する実行パターンは、平叙文であればデータベースへの登録である。これに対し、質問文であれば回答であり、命令文であれば実行あるいは回答であって、回答や実行などの本システムによる処理が終了したときは、一時的に格納されていた入力文記憶手段13から当該入力文はログに移され、入力文記憶手段13より削除される。
《第2の実施形態》
以下、本発明の第2の実施の形態のシステムについて説明する。
このシステムは第1の実施の形態と比べ、音声による入力および出力が可能な点でのみ相違する。以下、図5を参照しながら相違点のみを説明するが、第1の実施の形態と同一内容については図2と同一の符号を用いる。
第2の実施形態のシステム21では、知識や質問の入力は音声でも可能であり、入力手段22にはキーボードだけでなくマイクなども含まれる。
音声入力の場合には、音声認識部23を備え、公知の方法により音声入力された言葉を文字列に変換する。たとえば、音声認識部23は、「うめ」という発話音声からは“ume”という3文字の文字列を生成する。この生成された文字列は文字入力されたデータと同様に形態素解析、構文解析、意味解析の対象となる。
システム21では、回答やコンサルテーションの出力も音声によることが可能であり、出力手段24にはディスプレイやプリンタだけでなくスピーカなども含まれる。音声出力の場合には、発話エンジン部25を備え、公知の方法によりテキストを音声に変換する。
このように音声による入力と出力の機能があれば、本システムは視覚障害者にも適合する。
《第3の実施形態》
以下、本発明の第3の実施の形態のシステムについて説明する。
この実施の形態は第1の実施の形態と比べ、質問文への回答時に広告宣伝情報も出力する点でのみ相違する。以下、図6を参照しながら相違点のみを説明するが、第1の実施の形態と同一内容については図2と同一の符号を用いる。
このシステム31は広告宣伝用データを蓄積しているデータベース32も備えている。
広告宣伝情報DB32には、このシステム31に平叙文として入力されるデータを蓄積してもよく、このシステム31の実行とは別に手入力などの方法で蓄積してもよい。
回答生成手段33は、質問文への回答文生成時に、当該質問文の内容に関連する広告宣伝用データを広告宣伝情報DB32から抽出し、回答に添えて出力することができる。
たとえば、「東京の梅の名所はどこですか」という質問文が入力されたとき、「新宿御苑、小石川後楽園、・・・」という回答とともに、付近の和菓子店や娯楽施設の広告を載せた回答文を出力する。特にスマートフォンなど、位置情報を有する通信機器からのアクセスでは、ユーザーの近くにある店舗等の広告を載せることができる。
上記の第1〜第3の実施の形態では、一連の知識応答のためのプログラムが単体のコンピュータに実装され、このコンピュータがインターネットと接続しつつ人間と知識応答をする装置として動作していた。
このシステムを組み込んだコンピュータはさまざまな用途に活用できる。たとえば、行政機関における来館者への案内装置として利用できる。図書館に調べ物に来た学生が「江戸時代の町人の生活に関する本はどこにありますか」とキー入力すると、画面に当該テーマに関連する書籍の名称と書棚とが画面表示される。また、視覚障害者のパソコンに音声入出力が可能なシステムを組み込んでおけば、「フォルダD:¥MyDocumentの直下にあるファイル名を教えてください」とマイクに向かって言うと、該当するファイル名が音声で読み上げられる。
しかし、知識応答のためのプログラムはWeb上のサービス(例:クラウドサービス)として提供され、ユーザーのコンピュータ(スマートフォンなども含む)は必要なときにこのサービスを利用してもよい。
あるいは、本発明の知識応答のためのプログラムおよび入力文の解析に用いる各種辞書は、将来的にコンピュータのOSの一部を構成するモジュールとしてシステムに組み込まれることも考えられる。
要は、インターネットの検索機能を付加して、マン・マシンインターフェイスの向上を図ったことが重要なのであって、本発明のシステムを案内装置などの専用機に組み込むか、汎用的なコンピュータに機能の一部として組み込むかは問題ではない。
なお、意味モデルDBに蓄積されるデータに制限はない。汎用データでも良いし専用データでも良い。たとえば専用データとして、本発明のシステムのユーザーが商品販売会社であれば、その方面のデータを重視あるいは特化することになる。更に関連情報として顧客情報、仕入情報、売上情報などの営業情報を意味モデルDBに付加してもよい。
上記の実施形態で検索結果の絞り込み個数として30文書程度と例示した。回答が一意的に決まるものは、これで十分であるが、市場動向や意識調査に関する内容のように、抽出文書は多い程よいことがある。したがって、検索キーによって絞り込み個数を可変にし、例えば意味辞書10に、「市場動向、1000文書」のように定義し、定義がなければデフォルト値(例:30文書)をとるようにする方法がある。
人間とコンピュータとのインターフェイスとして自然言語を使う際、インターネットから取得した情報も利用するので、人間にとってコンピュータの利用価値が一層高まる。
1:コンピュータ、11:意味モデルデータベース、12:Web検索結果データベース、14:入力文解析手段、15:知識データ登録手段、16:外部データ検索手段、
17:外部データ登録手段、18:回答生成手段、19:命令実行手段、
21:コンピュータ、
31:コンピュータ、32:広告宣伝情報データベース、33:回答生成手段、
N:インターネット

Claims (5)

  1. 自然言語で文を入力して、その入力文に対してコンピュータが言語解析を行い、応答するシステムであって、
    自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行う入力文解析手段と、
    前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積する知識データ登録手段と、
    前記入力文が質問文の場合、インターネットに接続してWeb検索を行い、正規化された検索結果を取得する外部データ検索手段と、
    前記正規化された検索結果をWeb検索結果データベースに格納する外部データ登録手段と、
    前記入力文が質問文の場合、前記意味モデルデータベースと前記Web検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力する回答生成手段と、
    前記入力文が命令文の場合には、当該命令を実行する命令実行手段とを備えることを特徴とする知識応答システム。
  2. 自然言語の文の入出力の際に、音声による入出力を可能とすることを特徴とする請求項1に記載の知識応答システム。
  3. 広告宣伝用データが登録される広告宣伝情報データベースを備え、前記回答生成手段は、前記質問文への回答文生成時に、当該質問文の内容に関連する広告宣伝用データを前記広告宣伝情報データベースから抽出し、回答文とともに出力することを特徴とする請求項1に記載の知識応答システム。
  4. 自然言語で文を入力して、その入力文に対してコンピュータが言語解析を行い、何らかの応答をする方法であって、
    インターネットに接続可能なコンピュータが、
    自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行うステップと、
    前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積するステップと、
    前記入力文が質問文の場合、インターネットに接続してWeb検索を行い、正規化された検索結果を取得するステップと、
    前記正規化された検索結果をWeb検索結果データベースに格納するステップと、
    前記入力文が質問文の場合、前記意味モデルデータベースと前記Web検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力するステップと、
    前記入力文が命令文の場合には、当該命令を実行するステップと、
    を行うことを特徴とする知識応答方法。
  5. インターネットに接続可能なコンピュータに、
    自然言語形態で入力された文に対して、形態素解析、構文解析、および意味解析を行うステップと、
    前記入力文が平叙文の場合、知識データとして前記入力文を意味モデルデータベースに蓄積するステップと、
    前記入力文が質問文の場合、インターネットに接続してWeb検索を行い、正規化された検索結果を取得するステップと、
    前記正規化された検索結果をWeb検索結果データベースに格納するステップと、
    前記入力文が質問文の場合、前記意味モデルデータベースと前記Web検索結果データベースとから意味モデルによる意味検証を行い、その結果得た回答を出力するステップと、
    前記入力文が命令文の場合には、当該命令を実行するステップと、
    を実行させることを特徴とするコンピュータプログラム。
JP2012056496A 2012-03-13 2012-03-13 知識応答システム、方法およびコンピュータプログラム Pending JP2013190985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012056496A JP2013190985A (ja) 2012-03-13 2012-03-13 知識応答システム、方法およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012056496A JP2013190985A (ja) 2012-03-13 2012-03-13 知識応答システム、方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2013190985A true JP2013190985A (ja) 2013-09-26

Family

ID=49391164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012056496A Pending JP2013190985A (ja) 2012-03-13 2012-03-13 知識応答システム、方法およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2013190985A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3276507A1 (en) * 2016-07-25 2018-01-31 Fujitsu Limited Encoding device, encoding method and search method
WO2019039375A1 (ja) * 2017-08-23 2019-02-28 国立研究開発法人情報通信研究機構 対話応答システム、モデル学習装置および対話装置
JP2019040574A (ja) * 2017-08-23 2019-03-14 国立研究開発法人情報通信研究機構 対話応答システム、モデル学習装置および対話装置
WO2020100738A1 (ja) * 2018-11-15 2020-05-22 日本電信電話株式会社 処理装置、処理方法、及び処理プログラム
JP2022103191A (ja) * 2018-04-16 2022-07-07 グーグル エルエルシー 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント
JP2023506087A (ja) * 2019-12-31 2023-02-14 エーアイ スピーチ カンパニー リミテッド スキルの音声ウェイクアップ方法および装置
CN118227802A (zh) * 2024-05-23 2024-06-21 浙江大学 一种基于大语言模型的标准数字化处理方法及系统
JP7519476B2 (ja) 2017-09-28 2024-07-19 オラクル・インターナショナル・コーポレイション 質問と要求とを自律エージェントが区別できるようにすること

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175469A (ja) * 2000-12-06 2002-06-21 Ntt Data Corp 情報提供システム
JP2002215661A (ja) * 2001-01-12 2002-08-02 Sakae Takeuchi 自然言語インターフェイス知識応答システム
JP2002245332A (ja) * 2001-02-16 2002-08-30 Isola Barrier Free Co Ltd 広告方法および広告システム
JP2006039881A (ja) * 2004-07-26 2006-02-09 Nippon Telegr & Teleph Corp <Ntt> 質問応答システム、方法及びプログラム
US20070118519A1 (en) * 2005-11-21 2007-05-24 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
US20110258223A1 (en) * 2010-04-14 2011-10-20 Electronics And Telecommunications Research Institute Voice-based mobile search apparatus and method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175469A (ja) * 2000-12-06 2002-06-21 Ntt Data Corp 情報提供システム
JP2002215661A (ja) * 2001-01-12 2002-08-02 Sakae Takeuchi 自然言語インターフェイス知識応答システム
JP2002245332A (ja) * 2001-02-16 2002-08-30 Isola Barrier Free Co Ltd 広告方法および広告システム
JP2006039881A (ja) * 2004-07-26 2006-02-09 Nippon Telegr & Teleph Corp <Ntt> 質問応答システム、方法及びプログラム
US20070118519A1 (en) * 2005-11-21 2007-05-24 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
JP2007141090A (ja) * 2005-11-21 2007-06-07 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20110258223A1 (en) * 2010-04-14 2011-10-20 Electronics And Telecommunications Research Institute Voice-based mobile search apparatus and method

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9906238B2 (en) 2016-07-25 2018-02-27 Fujitsu Limited Encoding device, encoding method and search method
EP3276507A1 (en) * 2016-07-25 2018-01-31 Fujitsu Limited Encoding device, encoding method and search method
WO2019039375A1 (ja) * 2017-08-23 2019-02-28 国立研究開発法人情報通信研究機構 対話応答システム、モデル学習装置および対話装置
JP2019040574A (ja) * 2017-08-23 2019-03-14 国立研究開発法人情報通信研究機構 対話応答システム、モデル学習装置および対話装置
JP7058438B2 (ja) 2017-08-23 2022-04-22 国立研究開発法人情報通信研究機構 対話応答システム、モデル学習装置および対話装置
JP7519476B2 (ja) 2017-09-28 2024-07-19 オラクル・インターナショナル・コーポレイション 質問と要求とを自律エージェントが区別できるようにすること
US11756537B2 (en) 2018-04-16 2023-09-12 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
JP7486540B2 (ja) 2018-04-16 2024-05-17 グーグル エルエルシー 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント
JP2022103191A (ja) * 2018-04-16 2022-07-07 グーグル エルエルシー 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント
WO2020100738A1 (ja) * 2018-11-15 2020-05-22 日本電信電話株式会社 処理装置、処理方法、及び処理プログラム
JP7081454B2 (ja) 2018-11-15 2022-06-07 日本電信電話株式会社 処理装置、処理方法、及び処理プログラム
JP2020086548A (ja) * 2018-11-15 2020-06-04 日本電信電話株式会社 処理装置、処理方法、及び処理プログラム
US11721328B2 (en) 2019-12-31 2023-08-08 Ai Speech Co., Ltd. Method and apparatus for awakening skills by speech
JP2023506087A (ja) * 2019-12-31 2023-02-14 エーアイ スピーチ カンパニー リミテッド スキルの音声ウェイクアップ方法および装置
JP7436077B2 (ja) 2019-12-31 2024-02-21 エーアイ スピーチ カンパニー リミテッド スキルの音声ウェイクアップ方法および装置
CN118227802A (zh) * 2024-05-23 2024-06-21 浙江大学 一种基于大语言模型的标准数字化处理方法及系统

Similar Documents

Publication Publication Date Title
JP2013190985A (ja) 知識応答システム、方法およびコンピュータプログラム
CN114547329A (zh) 建立预训练语言模型的方法、语义解析方法和装置
JP6676109B2 (ja) 発話文生成装置とその方法とプログラム
KR102445519B1 (ko) 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법
RU2488877C2 (ru) Идентификация семантических взаимоотношений в косвенной речи
CN114116994A (zh) 一种迎宾机器人对话方法
CN108885617B (zh) 语句解析系统以及程序
US10824816B2 (en) Semantic parsing method and apparatus
WO2020233386A1 (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
Lommatzsch et al. An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases.
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
JP2020135135A (ja) 対話コンテンツ作成支援方法およびシステム
Wijeratne et al. Natural language processing for government: Problems and potential
Patil et al. Novel technique for script translation using NLP: performance evaluation
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
Trivedi Fundamentals of Natural Language Processing
Nguyen et al. A vietnamese question answering system
Christophe et al. A methodology supporting syntactic, lexical and semantic clarification of requirements in systems engineering
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
Zhang Russian speech conversion algorithm based on a parallel corpus and machine translation
Wanjawa et al. Model for semantic network generation from low resource languages as applied to question answering–case of swahili
Rautaray et al. A Naive approach: Translation of Natural Language to Structured Query Language
Oudah et al. Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition
Kupiyalova et al. Semantic search using Natural Language Processing
de Avelino The Recognition of Brazilian Baiano and Gaucho Regional Dialects on Twitter Using Text Mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160302