JP6097707B2 - データ更新装置、方法、及びプログラム - Google Patents

データ更新装置、方法、及びプログラム Download PDF

Info

Publication number
JP6097707B2
JP6097707B2 JP2014020651A JP2014020651A JP6097707B2 JP 6097707 B2 JP6097707 B2 JP 6097707B2 JP 2014020651 A JP2014020651 A JP 2014020651A JP 2014020651 A JP2014020651 A JP 2014020651A JP 6097707 B2 JP6097707 B2 JP 6097707B2
Authority
JP
Japan
Prior art keywords
news
utterance
information
feature word
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014020651A
Other languages
English (en)
Other versions
JP2015148894A (ja
Inventor
東中 竜一郎
竜一郎 東中
可奈子 大西
可奈子 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014020651A priority Critical patent/JP6097707B2/ja
Publication of JP2015148894A publication Critical patent/JP2015148894A/ja
Application granted granted Critical
Publication of JP6097707B2 publication Critical patent/JP6097707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ更新装置、方法、及びプログラムに関する。
対話システムは大きく分けて二種類あり、タスク指向型対話システムと非タスク指向型対話システムに分けられる。前者は特定のタスクをシステムとの対話により達成するものであり、たとえば、フライトの予約システムや天気情報検索システムに用いられている。これらのシステムでは、予め話される内容が想定できるため、手作業で作り込んだ発話のデータベースを保持したり、データベースから抽出される天気情報などを手作業によるテンプレートに当てはめてシステムは発話を生成する(非特許文献1)。
非タスク指向型対話システムでは、目的のない対話を扱い、対話の内容はいわゆる雑談である。雑談はさまざまな話題が話されるため、予め話される内容は想定できない。そのため発話生成は非常に難しい課題である。ユーザの幅広い入力に対応するために、近年の従来技術では、マイクロブログの発言をデータベース化しておき、ユーザ発話に類似するものを選択することでシステム発話とするものがある(非特許文献2)。
雑談のような対話では、ユーザを飽きさせないため常に新しい情報を提示することが望ましい。非特許文献3では、ウェブサイトから取得したニュースを抽出し、ユーザに提示することで雑談を行う対話システムを提案している。
Ryuichiro Higashinaka,Katsuhito Sudoh,Mikio Nakano,"Incorporating Discourse Features into Confidence Scoring of Intention Recognition Results in Spoken Dialogue Systems",Speech Communication,2006,Volume 48,Issues 3-4,p.417-436 別所史浩、原田達也、國吉康夫、「リアルタイムクラウドソーシングとTwitter 大規模コーパスを利用した対話システム」、情報処理学会研究報告、2012、Vol.2012-NL-206 No.13 水野淳太、乾健太郎、松本裕治、「ウェブニュースを利用した雑談対話システム」、人工知能学会研究会資料SIG-SLUD-55、2009、p.1-6
しかし、マイクロブログから発話をデータベース化(インデックス化)して発話を蓄え、ユーザの発話内容に類似したものを提示する場合、データベースの内容が古くなってしまうという問題がある。直近の発話のみからデータベースを構築すると、一般的な内容でデータベースに常に含めておくべきものまで含まれなくなってしまったり、データベースのサイズが小さくなることで発話の網羅性が低くなる。ニュースデータを発話する対話システムでは、ニュースもインデックス化され、この中から適切なニュースがユーザに提示されるが、どのニュースを提示して、どのニュースを提示しないかを適切に管理しないと、古いニュースをユーザに伝えてしまう。これによって、ユーザは誤った情報を受け取ったり、タイムリーではない情報によって対話システムとのやりとりを興味の無いものにしてしまう。
本発明は、上記の事情に鑑みてなされたものであり、データベースを適切な内容に更新することができるデータ更新装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係るデータ更新装置は、予め定められた有効期限を経過したニュース情報から、特徴単語を抽出する特徴単語抽出部と、有効であるか無効であるかを示す情報が付与された複数の発話が登録された発話データベースに対し、前記特徴単語抽出部によって抽出された特徴単語を含む前記発話に対応する前記情報を、無効であることを示す情報に更新する発話無効化部と、を含んで構成されている。
また、第2の発明に係るデータ更新方法は、特徴単語抽出部、及び発話無効化部を含むデータ更新装置におけるデータ更新方法であって、前記特徴単語抽出部が、予め定められた有効期限を経過したニュース情報から、特徴単語を抽出するステップと、前記発話無効化部が、有効であるか無効であるかを示す情報が付与された複数の発話が登録された発話データベースに対し、前記特徴単語抽出部によって抽出された特徴単語を含む前記発話に対応する前記情報を、無効であることを示す情報に更新するステップと、を含んで構成されている。
また、第3の発明に係るデータ更新装置は、有効であるか無効であるかを示す情報が付与された複数のニュース情報が登録されたニュースデータベースに登録されている前記ニュース情報から、特徴単語を抽出する特徴単語抽出部と、発言時期が付与された複数の発話が登録された発話データベースに登録されている、前記発言時期が予め定められた期間内に含まれる発話における、前記特徴単語抽出部によって抽出された特徴単語の出現頻度に基づいて、前記ニュース情報に対応する前記情報を、無効であることを示す情報に更新するニュース無効化部と、を含んで構成されている。
また、第4の発明に係るデータ更新方法は、特徴単語抽出部、及びニュース無効化部を含むデータ更新装置におけるデータ更新方法であって、前記特徴単語抽出部が、有効であるか無効であるかを示す情報が付与された複数のニュース情報が登録されたニュースデータベースに登録されている前記ニュース情報から、特徴単語を抽出するステップと、前記ニュース無効化部が、発言時期が付与された複数の発話が登録された発話データベースに登録されている、前記発言時期が予め定められた期間内に含まれる発話における、前記特徴単語抽出部によって抽出された特徴単語の出現頻度に基づいて、前記ニュース情報に対応する前記情報を、無効であることを示す情報に更新するステップと、を含んで構成されている。
また、本発明に係るプログラムは、コンピュータを、第1の発明又は第3の発明に係るデータ更新装置の各部として機能させるためのプログラムである。
以上説明したように、本発明のデータ更新装置、方法、及びプログラムによれば、有効期限を経過したニュース情報から特徴単語を抽出し、有効であるか無効であるかを示す情報が付与された複数の発話が登録された発話データベースに対し、特徴単語を含む発話に対応する有効・無効フラグを、無効であることを示す情報に更新することにより、発話データベースを適切な内容に更新することができる、という効果が得られる。
また、本発明のデータ更新装置、方法、及びプログラムによれば、ニュース情報から特徴単語を抽出し、発話データベースに登録されている、発言時期が予め定められた期間内に含まれる発話における特徴単語の出現頻度に基づいて、当該ニュース情報に対応する有効であるか無効であるかを示す情報を、無効であることを示す情報に更新することにより、ニュースデータベースを適切な内容に更新することができる、という効果が得られる。
本発明の実施の形態に係るデータ更新装置の一構成例を示すブロック図である。 ニュースインデックスと発話インデックスとの一例を示す図である。 本発明の実施の形態における発話インデックス更新処理の内容を示すフローチャートである。 本発明の実施の形態におけるニュースインデックス更新処理の内容を示すフローチャートである。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態では、ニュース情報に付与された配信終了時期(以下、有効期限と称する。)を用いて、マイクロブログから得られた発話インデックスの機能を無効化する。また、所定の期間のマイクロブログ中の単語情報に基づいて、ニュース情報から得られたニュースインデックスの機能を無効化する。
対話システムを作り込む場合、ニュース情報を人手で投入することが多い。この場合、有効期限を付与することがある。例えば、ある商品の販売がいついつまでであるというニュースがあった場合、その販売終了時期を当該ニュース情報の有効期限としたり、天気情報などであれば、その日のみを有効期限としたりする。週末のイベントについてであれば、日曜日までが有効期限となる。
このように、原則として、ニュース情報には有効期限が付与されているものとする。ニュース情報には有効期限が付与されていると、当該ニュース文に書かれた情報はその期間を過ぎれば古い情報になることが分かる。マイクロブログから得られた発話インデックスからこの古い情報を含む発話を削除又は無効化することで、対話システムはこの古い情報について言及せずに済む。
ウェブサイトなどから自動的にニュース情報を取得したときには、有効期限が付与されていない場合がある。そのような場合は、ニュース文に含まれる情報が、マイクロブログの発話インデックスにおいてどのように出現しているかを分析し、一定期間その情報が見られないのであれば、その話題については古くなったものとみなしてニュース情報を削除又は無効化する。こうすることで、対話システムは古いニュース情報をユーザに伝えなくて済む。
ニュース情報における各ニュース文を、単語又は単語列で表し、各ニュース文において特徴的な単語又は単語系列をそのニュース文の情報とする。そして、そのニュース文の有効期限が終了した場合、その単語又は単語系列を含む発話を発話インデックスから削除又は無効化すればよい。
有効期限が不明なニュース情報を削除又は無効化する際には、現在から遡って一定の期間に、その単語又は単語系列が含まれる発話の数を調べ、それらの発話数が所定の値を下回る場合にはその話題は古くなったとみなし、削除又は無効化すればよい。なお、発話インデックスの発話それぞれについては、その発言時期が付与されているものとする。
各ニュース文において特徴的な単語又は単語系列を取得する手法としては、各ニュース文に現れる単語の頻度情報を用い、特にそのニュース文に偏って現れるものを、特徴的な単語として取得すればよい。
以下では、出願人が作成した対話システムの発話情報源を、データ更新装置に適用した場合を例に説明する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<データ更新装置のシステム構成>
図1は、本発明の実施の形態に係るデータ更新装置100を示すブロック図である。このデータ更新装置100は、CPUと、RAMと、後述する発話インデックス更新処理ルーチン及びニュースインデックス更新処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係るデータ更新装置100は、図1に示すように、ニュース情報入力部10と、ニュースデータベース20と、発話データベース構築部25と、発話データ入力部30と、発話データベース40と、演算部50とを備えている。
ニュース情報入力部10は、複数のニュース情報を受け付ける。ニュース情報には、当該ニュース情報の配信開始時期及び有効期限と、有効であるか無効であるかの情報とが付与されている。具体的には、ニュース情報入力部10は、人手によって入力されたニュース情報と、インターネット12を介してウェブ上のニュースサイト14から得られたニュース情報とを受け付ける。ウェブ上のニュースサイト14からニュース情報を受け付ける場合には、RSSなどの配信機構によりニュース情報を自動的に取得することが可能である。ただし、配信機構によりニュース情報を自動的に取得する場合には、有効期限は不明となる。
ニュースデータベース20には、ニュース情報入力部10によって受け付けた複数のニュース情報が格納される。具体的には、ニュースデータベース20には、複数のニュース情報の各々について、当該ニュース情報に対応するニュースID、トリガ単語、ニュース文、配信開始時期、有効期限、有効・無効フラグを1レコードとして格納したニュースインデックスが記憶されている。ニュースデータベース20には、有効期限が付与されているニュース情報と、有効期限が付与されていないニュース情報とが混在して登録されている。
ここで、ニュースIDはニュース情報に自動的に振られる連番である。また、トリガ単語とは、ユーザが当該単語を発話した場合に、トリガ単語を含むニュース文が対話システムによって発話されうる条件となる単語のことである。なお、トリガ単語は無くてもよい。
また、有効・無効フラグは、ニュース情報が有効であるか無効であるかを示す情報であり、対話システムによって当該レコードのニュース情報を使用することが可能かどうかを示す二値の値である。配信開始時期については、必要があれば設定されるし、レコードが追加された時刻を、配信開始時期として設定してもよい。
図2(A)に、ニュースインデックスの一例を示す。上記図2(A)では例示のため3つしかレコードを載せていないが、実際のニュースインデックスにおいては数百から数千のレコードを保持する。
発話データベース構築部25は、インターネット12を介してマイクロブログサイト16(具体的にはツイッター(R)サイトを使用)にアクセスし、マイクロブログサイト16から複数の発話(ツイート)と当該発話の発言時期とを取得する。
発話データ入力部30は、発話データベース構築部25によって取得された複数の発話と発言時期とを受け付ける。
発話データベース40には、有効であるか無効であるかを示す情報と発言時期とが付与された複数の発話が格納されている。具体的には、発話データベース40には、複数の発話の各々について、当該発話に対応する発話ID、発話、発言時期、有効・無効フラグを1レコードとして格納した発話インデックスが記憶されている。また、発話データベース40は、各発話について、全文検索が可能なように転置インデックスを記憶している。
発話データベース40の構築には、一般的な全文検索エンジンのデータベースを構築する手順を踏めばよく、フリーソフトのLuceneやNamazuなどを用いて構築すればよい。本実施の形態ではLuceneを用いる。発話を発話データベース40に格納する際は、発話に対して日本語の形態素解析エンジンを適用し、発話を単語に分割して格納する。本実施の形態では、形態素解析エンジンに出願人が開発したJTAGを用いる。
また、発話IDは発話に振られる連番である。有効・無効フラグは、発話が有効であるか無効であるかを示す情報であり、対話システムによって当該レコードの発話を使用することが可能かどうかを示す二値の値である。図2(B)に、発話インデックスの一例を示す。上記図2(B)でも例示のため3つしかレコードを載せていないが、実際の発話インデックスでは数百万単位の発話を持つ発話インデックスを使用する.
演算部50は、ニュースデータベース20に格納されたニュースインデックス内の有効・無効フラグと、発話データベース40に格納された発話インデックス内の有効・無効フラグとを更新する。演算部50は、期限切れニュース抽出部52と、特徴単語抽出部54と、発話無効化部56と、期限なしニュース抽出部58と、特徴単語抽出部60と、頻度算出部62と、ニュース無効化部64とを備えている。
期限切れニュース抽出部52は、ニュースデータベース20に格納されたニュースインデックスを走査し、現在時刻と有効期限とを比較して、有効期限を経過したニュース情報のレコードの各々を抽出する。ここで、期限切れニュース抽出部52は、同時に、有効期限が経過しているニュース情報のレコードについては、有効・無効フラグを無効にする。これにより、有効期限が経過しているニュース情報のニュース文は、対話システムには用いられなくなる。
特徴単語抽出部54は、ニュースデータベース20に格納されているニュースインデックスのニュース情報の各々から、特徴単語を抽出する。
具体的には、特徴単語抽出部54は、期限切れニュース抽出部52によって抽出された有効期限を経過したニュース文の各々について、当該ニュース文から、特徴単語を抽出する。ここでの特徴単語は、有効期限を経過した当該ニュース文において特に偏って出現している単語である。より具体的には、特徴単語抽出部54は、有効期限を経過したニュース文の各々について、JTAGを用いて形態素解析処理を行い、当該ニュース文に含まれる単語列を取得する。ここで、特徴単語抽出部54は、ニュース文内の単語の内容に着目するため、特に内容語を取り出す。内容語は、品詞が名詞、動詞、及び形容詞の単語、並びに未知語の単語とする。
例えば、ニュース文「お正月の三が日には浅草寺で御神酒が振る舞われるとのことです。」であれば、「お正月」「三が日」「浅草寺」「御神酒」「振る舞う」が内容語として取り出される。
そして、特徴単語抽出部54は、抽出した単語そのもの、又は抽出した単語の組み合わせについて、当該ニュース文において特に偏って出現しているか否かを統計処理によって判定し、特徴単語を抽出する。本実施の形態では、抽出した単語そのものを特徴単語として用いる。統計処理の具体例としては、IDFを用いる。ここで、当該ニュース文をX、当該ニュース文Xの内容語をW、ニュースインデックス内のレコード数をY、Wを含むニュースインデックス内のレコード数をZとすると、IDFの値は、log(Y/Z)で表せる。そして、特徴単語抽出部54は、IDF値が一定値以上の内容語Wを、当該ニュース文Xの特徴単語として抽出する。実際には、当該ニュース文Xの特徴単語としてWの集合が抽出される。
なお、特徴単語を抽出するための尺度として、尤度比検定やχ二乗検定といった手法を用いてもよい。これらの検定では、当該ニュース情報にある単語が出現する確率と、データ全体に当該単語が出現する確率を比較することで、当該ニュース情報に統計的に有意に偏って出現している単語を抽出することができる。これらの検定は、特定のデータに偏って出現している単語を抽出する際の一般的な手法である。
発話無効化部56は、発話データベース40に格納された発話インデックスに対し、特徴単語抽出部54によって有効期限を経過したニュース情報から抽出された特徴単語を含む発話に対応する有効・無効フラグを、無効に更新する。
具体的には、発話無効化部56は、特徴単語抽出部54から特徴単語を受け取り、発話データベース40に格納された発話インデックスのレコードの各々の発話を形態素解析する。そして、発話無効化部56は、発話インデックスのレコードの各々の発話について、内容語を取り出し、有効期限を経過したニュース情報から抽出された特徴単語が含まれているかどうかをチェックする。もし、当該発話に特徴単語が含まれていれば、当該発話に対応するレコードの有効・無効フラグを無効にする。また、発話インデックス内の大量の発話に形態素解析を何度も行うことは困難な場合は、発話インデックスに形態素解析結果を含めるとよい。また、内容語を予め抽出しておいたり、内容語の組み合わせを予め求めておいてもよい。
期限なしニュース抽出部58は、ニュースデータベース20に格納されたニュースインデックスを走査し、有効期限が付与されていないニュース情報のレコードの各々を抽出する。
特徴単語抽出部60は、期限なしニュース抽出部58によって抽出された有効期限が付与されていないレコードのニュース情報の各々について、特徴単語抽出部54と同様に、特徴単語を取得する。具体的には、特徴単語抽出部60は、期限なしニュース抽出部58によって抽出された有効期限が付与されていないニュース文の各々について、当該ニュース文から、特徴単語を抽出する。ここでの特徴単語は、有効期限が付与されていない当該ニュース文において特に偏って出現している単語である。
頻度算出部62は、発話データベース40に格納された発話インデックス内の、発言時期が予め定められた期間内(現在時刻から一定期間前まで)の発話の各々について(例えば、過去一ヶ月にインデックスされた発話について)、形態素解析を行い、特徴単語抽出部60によって抽出された特徴単語が含まれているかをチェックする。
頻度算出部62は、発話インデックス内の現在時刻から一定期間前までのレコードにおける特徴単語が含まれていたレコード数をQ、現在時刻から一定期間前までの発話インデックス内のレコード数をR、発話インデックス内の全レコード数をS、発話インデックス内の全レコードにおける特徴単語が含まれていたレコード数をTとして算出する。そして、頻度算出部62は、算出したQ、R、S、Tの値をニュースIDとセットにして、後述するニュース無効化部64に出力する。ここで、Q、R、S、Tのすべてを算出しなくてもよい。後述するニュース無効化部64が実際に使用するもののみを算出すればよい。
ニュース無効化部64は、頻度算出部62によって算出された特徴単語の出現頻度Qに基づいて、ニュースデータベース20に格納されているニュースインデックスの各レコードに対応する有効・無効フラグを、無効に更新する。具体的には、ニュース無効化部64は、頻度算出部62によって出力されたニュースIDと出現頻度Qの値とについて、以下の条件(1)を用いて当該ニュースIDのニュース情報を無効にするか否かを判定する。ニュース情報が無効と判定された場合は、当該ニュース情報のニュースIDの有効・無効フラグを無効にする。
(1)単純出現頻度の利用:予め定めた閾値をAとすると、Q<Aであれば、無効と判定する。
また、ニュース無効化部64は、頻度算出部62によって出力されたニュースIDとQ、R、S、Tの値について、以下の条件(2)、(3)の何れかを用いて当該ニュースIDのニュース情報を無効にするか否かを判定してもよい。
(2)割合の利用:予め定めた閾値をBとすると、Q/R<Bであれば、無効と判定する。
(3)全体との割合の比較:Q/R<T/Sであれば、無効と判定する。
また、ニュース無効化部64は、その他の統計検定を用いて、一定期間内に特徴単語が有意に少なくなっているか否かを調査し、有意差がある場合に無効と判定してもよい。この場合には、例えば一定期間とそれ以外の期間について、特徴単語を含むレコード数の期待値を求め、実際の観測された値からこれらの期待値を引いた値を二乗し足し合わせたχ二乗値の値を元に、有意差を検定すればよい。また、有意差の検定に対数尤度比検定などを用いてもよい。ここで無効と判定されたニュースIDのニュース情報の有効・無効フラグが無効になる。
本発明の実施の形態は、対話システムの発話の情報源に関するものであるが、実際の対話システムとしての挙動についても簡単に説明しておく。
対話システムは、ユーザ発話を入力として受け取ると、ユーザ発話を形態素解析し、予め設定されたルールによって、話題となる単語を抽出する。例えば、「ジョン・レノンって知ってる?」であれば、固有名詞である「ジョン・レノン」を抽出する。話題となる単語が複数ある場合は、ランダムもしくは予め設定されたルールによって最も話題としてふさわしいと思われる単語を選ぶ。
次に、対話システムは、話題となる単語についてニュースインデックスを検索する。話題となる単語がトリガ部に一致し、かつ、有効・無効フラグが有効のものを抽出する。一致するものがあれば、そのニュース情報(複数あればいずれか)をユーザに発話する。なければ「ジョン・レノン」という単語を含む発話インデックスを検索し、該当するものがあればその発話文を発話する。発話インデックスに該当するものが無ければ予め設定された発話から何れかを選択し発話する。例えば、相槌の「はい」である。
<データ更新装置の作用>
次に、本実施の形態に係るデータ更新装置100の作用について説明する。まず、ニュースデータベース20に格納されているニュースインデックスに、ニュースサイト14から得られた、又は人手により入力された複数のニュース情報が逐次登録され、発話データベース40に格納されている発話インデックスに、マイクロブログサイト16から得られた複数の発話と当該発話の発言時期とが逐次登録される。そして、一定期間(例えば、1日)が経過する毎に、データ更新装置100によって、図3に示す発話インデックス更新処理ルーチンが実行される。
まず、ステップS100において、期限切れニュース抽出部52によって、ニュースデータベース20に格納されたニュースインデックスを走査し、有効・無効フラグが有効であるニュース情報のレコードの各々について、現在時刻と有効期限とを比較して、有効期限を経過したニュース情報のレコードの各々を抽出する。また、期限切れニュース抽出部52によって、同時に、有効期限が経過しているニュース情報のレコードについては、有効・無効フラグを無効にする。
ステップS102において、特徴単語抽出部54によって、上記ステップS100で抽出された有効期限を経過したニュース情報の各々について、当該ニュース情報から、特徴単語を抽出する。
ステップS104において、発話データベース40に格納された発話インデックス内の有効・無効フラグが有効である発話のレコードのうち、1つのレコードを設定する。
ステップS106において、発話無効化部56によって、上記ステップS104で設定された発話データベース40に格納された発話インデックス内のレコードの発話に対し、形態素解析を行う。
ステップS108において、発話無効化部56によって、上記ステップS102で抽出された特徴単語と、上記ステップS106での形態素解析結果とに基づいて、上記ステップS104で設定されたレコードの発話について内容語を取り出し、上記ステップS102で抽出された特徴単語が含まれているか否かを判定する。上記ステップS104で設定されたレコードの発話に上記ステップS102で抽出された特徴単語が含まれている場合には、ステップS110へ進む。一方、上記ステップS104で設定されたレコードの発話に上記ステップS102で抽出された特徴単語が含まれていない場合には、ステップS112へ移行する。
ステップS110において、発話無効化部56によって、上記ステップS104で設定されたレコードの有効・無効フラグを、無効に更新する。
ステップS112において、発話データベース40に格納された発話インデックス内の全てのレコードについて上記ステップS104〜S110の処理を実行したか否かを判定する。発話データベース40に格納された発話インデックス内の全てのレコードについて上記ステップS104〜S110の処理を実行した場合には、発話インデックス更新処理ルーチンを終了する。一方、上記ステップS104〜S110の処理を実行していないレコードが発話インデックス内に存在する場合には、ステップS104へ戻る。
発話インデックス更新処理ルーチンを終了すると、次に図4に示すニュースインデックス更新処理ルーチンが実行される。
まず、ステップS200において、期限なしニュース抽出部58によって、ニュースデータベース20に格納されたニュースインデックスを走査し、有効・無効フラグが有効であって、かつ、有効期限が付与されていないニュース情報のレコードの各々を抽出する。
ステップS202において、上記ステップS200で抽出されたレコードの各々から、1つのレコードを設定する。
ステップS204において、特徴単語抽出部60によって、上記ステップS202で設定されたレコードのニュース情報から、特徴単語を抽出する。
ステップS206において、頻度算出部62によって、発話データベース40に格納された発話インデックス内の、現在時刻から一定期間前までの間に発言時期が含まれる発話の各々について、形態素解析を行い、上記ステップS204で抽出された特徴単語が含まれているかをチェックする。
ステップS208において、頻度算出部62によって、発話インデックス内の現在時刻から一定期間前までのレコードにおいて、特徴単語が含まれていたレコード数を出現頻度Qとして算出する。
ステップS210において、ニュース無効化部64によって、上記ステップS208で得られた出現頻度Qの値と、上記条件(1)とに基づいて、出現頻度Qの値が閾値Aより小さいか否かを判定する。出現頻度Qの値が閾値Aより小さい場合には、ステップS212へ進む。一方、出現頻度Qの値が閾値A以上の場合には、ステップS214へ移行する。
ステップS212において、ニュース無効化部64によって、ニュースデータベース20に格納されているニュースインデックスの上記ステップS202で設定されたレコードに対応する有効・無効フラグを、無効に更新する。
ステップS214において、ニュースデータベース20に格納されているニュースインデックス内の全てのレコードについて上記ステップS202〜S212の処理を実行したか否かを判定する。ニュースデータベース20に格納されたニュースインデックス内の全てのレコードについて上記ステップS202〜S212の処理を実行した場合には、ニュースインデックス更新処理ルーチンを終了する。一方、上記ステップS202〜S212の処理を実行していないレコードがニュースインデックス内に存在する場合には、ステップS202へ戻る。
そして、対話システムが、上記発話インデックス更新処理ルーチンによって更新された発話インデックスと、上記ニュースインデックス更新処理ルーチンによって更新されたニュースインデックスとを、システム発話の情報源として用いて、ユーザ発話に対して発話を行う。
以上説明したように、本実施の形態に係るデータ更新装置によれば、有効期限を経過したニュース情報から特徴単語を抽出し、有効・無効フラグが付与された複数の発話が登録された発話データベースに対し、特徴単語を含む発話に対応する有効・無効フラグを、無効に更新することにより、発話データベースを適切な内容に更新することができる。
また、ニュースデータベースに登録されているニュース情報から特徴単語を抽出し、発話データベースに登録されている、発言時期が予め定められた期間内に含まれる発話における特徴単語の出現頻度に基づいて、当該ニュース情報に対応する有効・無効フラグを、無効に更新することにより、ニュースデータベースを適切な内容に更新することができる。
また、対話システムが会話において、タイムリーな情報を提供できるようになり、ユーザの会話意欲が増す。それにより、システムのユーザビリティが改善したり、ユーザとの意思疎通がしやすくなることで、システムとユーザのインタラクションが円滑になる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施の形態では、ニュースデータベース20、及び発話データベース40を備えている場合について説明したが、例えばニュースデータベース20、及び発話データベース40の少なくとも1つがデータ更新装置100の外部装置に設けられ、データ更新装置100は、外部装置と通信手段を用いて通信することにより、ニュースデータベース20、及び発話データベース40の少なくとも1つを参照するようにしてもよい。
また、ニュースデータベース20のニュースインデックスに登録されるニュース情報は、人手によって入力されたニュース情報と、インターネット12を介してウェブ上のニュースサイト14から得られたニュース情報とである場合を例に説明したが、これに限定されるものではなく、人手によって入力されたニュース情報、及びインターネット12を介してウェブ上のニュースサイト14から得られたニュース情報の何れか一方であってもよい。
また、ニュース無効化部64は、上記の条件(1)、(2)、及び(3)の何れかを用いてニュース情報を無効にするか否かを判定する場合を例に説明したが、これに限定されるものではなく、上記の条件(1)、(2)、及び(3)の少なくとも2つの条件を組み合わせて、ニュース情報を無効にするか否かを判定してもよい。例えば、上記の条件の組み合わせの全てについて満たす場合に、無効と判定してもよい。または、上記の条件の組み合わせの少なくとも1つについて満たす場合に、無効と判定してもよい。
また、ニュースデータベース20に格納されているニュースインデックスに複数のニュース情報が登録され、発話データベース40に格納されている発話インデックスに複数の発話と当該発話の発言時期とが登録された後、登録から一定期間を経過すると、発話インデックス更新処理ルーチンが実行され、発話インデックス更新処理ルーチンが終了した後に、ニュースインデックス更新処理ルーチンが実行される場合を例に説明したがこれに限定されるものではない。
例えば、一定期間を経過する毎に、ニュースインデックス更新処理ルーチンが先に実行され、ニュースインデックス更新処理ルーチンが終了した後に、発話インデックス更新処理ルーチンが実行されてもよい。
また、発話インデックス更新処理ルーチンと、ニュースインデックス更新処理ルーチンとは、異なるタイミングで実行されるようにしてもよい。また、一定数以上のニュース情報又は発話がインデックスに登録される毎に、各処理ルーチンが実行されるようにしてもよい。
上述のデータ更新装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 ニュース情報入力部
12 インターネット
14 ニュースサイト
16 マイクロブログサイト
20 ニュースデータベース
25 発話データベース構築部
30 発話データ入力部
40 発話データベース
50 演算部
52 期限切れニュース抽出部
54,60 特徴単語抽出部
56 発話無効化部
58 期限なしニュース抽出部
62 頻度算出部
64 ニュース無効化部
100 データ更新装置

Claims (6)

  1. 予め定められた有効期限を経過したニュース情報から、特徴単語を抽出する特徴単語抽出部と、
    有効であるか無効であるかを示す情報が付与された複数の発話が登録された発話データベースに対し、前記特徴単語抽出部によって抽出された特徴単語を含む前記発話に対応する前記情報を、無効であることを示す情報に更新する発話無効化部と、
    を含むデータ更新装置。
  2. 有効であるか無効であるかを示す情報が付与された複数のニュース情報が登録されたニュースデータベースに登録されている前記ニュース情報から、特徴単語を抽出する特徴単語抽出部と、
    発言時期が付与された複数の発話が登録された発話データベースに登録されている、前記発言時期が予め定められた期間内に含まれる発話における、前記特徴単語抽出部によって抽出された特徴単語の出現頻度に基づいて、前記ニュース情報に対応する前記情報を、無効であることを示す情報に更新するニュース無効化部と、
    を含むデータ更新装置。
  3. 特徴単語抽出部、及び発話無効化部を含むデータ更新装置におけるデータ更新方法であって、
    前記特徴単語抽出部が、予め定められた有効期限を経過したニュース情報から、特徴単語を抽出するステップと、
    前記発話無効化部が、有効であるか無効であるかを示す情報が付与された複数の発話が登録された発話データベースに対し、前記特徴単語抽出部によって抽出された特徴単語を含む前記発話に対応する前記情報を、無効であることを示す情報に更新するステップと、
    を含むデータ更新方法。
  4. 特徴単語抽出部、及びニュース無効化部を含むデータ更新装置におけるデータ更新方法であって、
    前記特徴単語抽出部が、有効であるか無効であるかを示す情報が付与された複数のニュース情報が登録されたニュースデータベースに登録されている前記ニュース情報から、特徴単語を抽出するステップと、
    前記ニュース無効化部が、発言時期が付与された複数の発話が登録された発話データベースに登録されている、前記発言時期が予め定められた期間内に含まれる発話における、前記特徴単語抽出部によって抽出された特徴単語の出現頻度に基づいて、前記ニュース情報に対応する前記情報を、無効であることを示す情報に更新するステップと、
    を含むデータ更新方法。
  5. コンピュータを、請求項1記載のデータ更新装置の各部として機能させるためのプログラム。
  6. コンピュータを、請求項2記載のデータ更新装置の各部として機能させるためのプログラム。
JP2014020651A 2014-02-05 2014-02-05 データ更新装置、方法、及びプログラム Active JP6097707B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014020651A JP6097707B2 (ja) 2014-02-05 2014-02-05 データ更新装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014020651A JP6097707B2 (ja) 2014-02-05 2014-02-05 データ更新装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015148894A JP2015148894A (ja) 2015-08-20
JP6097707B2 true JP6097707B2 (ja) 2017-03-15

Family

ID=53892219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014020651A Active JP6097707B2 (ja) 2014-02-05 2014-02-05 データ更新装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6097707B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6697373B2 (ja) * 2016-12-06 2020-05-20 カシオ計算機株式会社 文生成装置、文生成方法及びプログラム
JP2018198097A (ja) * 2018-09-20 2018-12-13 カシオ計算機株式会社 文生成装置、文生成方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091866A (ja) * 2000-06-28 2002-03-29 Hiroki Iwasaki 情報発信システム
JP3762226B2 (ja) * 2001-01-23 2006-04-05 日本電信電話株式会社 電子掲示板作成装置、電子掲示板作成方法、電子掲示板作成処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003076640A (ja) * 2001-09-04 2003-03-14 Matsushita Electric Ind Co Ltd データ処理装置およびファイルシステム
JP2006031509A (ja) * 2004-07-20 2006-02-02 Ricoh Co Ltd 電子掲示板システム、電子掲示板システムの記事整理方法、プログラムおよび記録媒体
JP2011108053A (ja) * 2009-11-18 2011-06-02 Nomura Research Institute Ltd ニュース記事評価システム

Also Published As

Publication number Publication date
JP2015148894A (ja) 2015-08-20

Similar Documents

Publication Publication Date Title
Sidorov et al. Syntactic n-grams as machine learning features for natural language processing
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
US8051088B1 (en) Document analysis
CN110717034A (zh) 一种本体构建方法及装置
JP2013529805A5 (ja) 検索方法、検索システム及びコンピュータプログラム
CN112417102A (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN109977233B (zh) 一种成语知识图谱构建方法及装置
WO2017198031A1 (zh) 解析语义的方法和装置
US9916301B2 (en) Named entity variations for multimodal understanding systems
CN112417103A (zh) 用于检测敏感词的方法、装置、设备和存储介质
JP6097707B2 (ja) データ更新装置、方法、及びプログラム
CN114244795A (zh) 一种信息的推送方法、装置、设备及介质
CN111444713A (zh) 新闻事件内实体关系抽取方法及装置
Mayor et al. A single author style representation for the author verification task.
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN109298796B (zh) 一种词联想方法及装置
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Alkhatib et al. Paraphrasing Arabic metaphor with neural machine translation
US20140324898A1 (en) System and method for searching aliases associated with an entity
CN112735465B (zh) 无效信息确定方法、装置、计算机设备及存储介质
JP4326713B2 (ja) ニュース話題解析装置
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP5676683B2 (ja) 発話文抽出装置、方法、及びプログラム
JP2014222399A (ja) 焦点推定装置、方法、及びプログラム
JP5583107B2 (ja) キーワード地名ペア抽出装置及び方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160617

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170220

R150 Certificate of patent or registration of utility model

Ref document number: 6097707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150