JP2020052595A

JP2020052595A - 抽出装置及びプログラム

Info

Publication number: JP2020052595A
Application number: JP2018179757A
Authority: JP
Inventors: 康孝西村; Yasutaka Nishimura; 吉原　貴仁; Takahito Yoshihara; 貴仁吉原
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2020-04-02
Anticipated expiration: 2038-09-26
Also published as: JP6975118B2

Abstract

【課題】テキストデータから特定カテゴリに該当する箇所が複数抽出される場合に、最適なものを選別することができる抽出装置を提供する。【解決手段】入力テキストを解析してその情報種別を判定する判定部1と、前記入力テキストを解析して、指定されるカテゴリに対する該当箇所を抽出する抽出部2と、前記該当箇所が複数抽出された場合に、前記情報種別及び前記カテゴリに基づいて最適な該当箇所を選別する選別部3と、を備える。選別部3では、前記情報種別及前記カテゴリに応じて予め定義される１つ以上の属性に関して、前記複数抽出された該当箇所における当該属性の評価結果を求め、当該評価結果に基づいて前記最適な該当箇所を選別する。【選択図】図１

Description

本発明は、テキストデータから特定カテゴリに該当する箇所が複数抽出される場合に、最適なものを選別することができる抽出装置及びプログラムに関する。

インターネットサービスやSNS（ソーシャル・ネットワーキング・サービス）などの普及により、メールやTwitter（登録商標）、Webサイトなどを通して大量のテキストデータが溢れている。メールやTwitterはユーザ同士のコミュニケーションを、Webサイトはユーザ向けの情報発信をそれぞれ目的としており、これらのテキストデータは非構造データに分類され、基本的に人間が理解し易い形式になっている。

大量のテキストデータから所望の情報を抽出し、表データなど、機械が理解しやすい構造データへ変換することで、様々なサービスへ活用できる。犯罪発生情報と地域イベント情報の例を説明する。

犯罪発生情報の例として、ユーザの関心のある地域において、犯罪発生毎にその内容のメールを受信できるサービスがある。これらの犯罪発生に関する複数メールのテキストデータから、犯罪種別(ひったくり、声掛けなど)、発生場所、発生日時などの情報を抽出することで、犯罪発生の傾向分析や注意喚起の高度化を実現できる。

地域イベント情報の例として、自治体WebサイトやTwitterなどのテキストデータから、イベント種別(お祭り、展示会など)、開催場所、開催日時の情報を抽出することで全国の地域イベント情報を集約したポータルサイトを提供できる(非特許文献１)。

特開平11−96178号公報

Twitterを用いた地域イベント発見技術 (NTT DOCOMOテクニカル・ジャーナル Vol. 23 No. 4) FastText API(facebook社、https://github.com/facebookresearch/fastText) goo API(goo社、https://labs.goo.ne.jp/api/) Web検索を用いたテキストセグメンテーション (NTT技術ジャーナル 2009.1)

上記のように大量のテキストデータをもとに種々のサービスを実現する際には、要素技術として、テキストデータを含む非構造データから所望の情報（特定カテゴリに該当する情報）を自動抽出することが必要となる。

抽出されるべき所望の情報を定義する特定カテゴリとして、例えば日時や場所が挙げられる。日時や場所の情報を抽出するための従来手法として、非特許文献３と特許文献１がある。非特許文献３では、固有表現抽出を用いてテキストデータから地名、日付、時間、人名、組織名などの情報を抽出する。特許文献１では、日時や場所の表記パターンや表現パターンを事前登録し、登録したパターンに基づいて日時や場所の情報を抽出する。

しかしながら、非特許文献３や特許文献１のような従来手法においては、テキストデータから日時や場所といったような特定カテゴリに該当する所望の情報を抽出した際に、複数の抽出結果があった場合に最適なものを選別することができないという課題があった。

上記従来技術の課題に鑑み、本発明は、テキストデータから特定カテゴリに該当する箇所が複数抽出される場合に、最適なものを選別することができる抽出装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は抽出装置であって、入力テキストを解析してその情報種別を判定する判定部と、前記入力テキストを解析して、指定されるカテゴリに対する該当箇所を抽出する抽出部と、前記該当箇所が複数抽出された場合に、前記情報種別及び前記カテゴリに基づいて最適な該当箇所を選別する選別部と、を備えることを特徴とする。また、前記抽出装置に対応するプログラムであることを特徴とする。

本発明によれば、入力テキストの情報種別と指定されるカテゴリとを考慮することにより、複数の該当箇所の中から最適なものを選別することが可能となる。

一実施形態に係る抽出装置の機能ブロック図である。説明のための入力テキストの模式例（架空例）である。予め定義しておく情報種別の例を示す図である。指定する各カテゴリの例である。第一例における属性とその評価結果リストとを表形式で示すものである。第一例における正解データ例を表形式で示すものである。第二例における属性とその評価結果リストとを表形式で示すものである。第二例における正解データ例を表形式で示すものである。一実施形態に係る学習装置の機能ブロック図である。

図１は、一実施形態に係る抽出装置の機能ブロック図である。抽出装置10は、判定部1、抽出部2及び選別部3を備える。以下、各部の処理内容に関して、扱うデータや定義しておくデータの個別具体的な内容に依らない一般的な説明を行うための明確化の観点から、各データに関していわゆる変数表記を用いて説明を行うこととし、当該説明の際に適宜、当該変数表記したデータ等に関する具体例も紹介する。

抽出装置10は、その全体的な動作として、入力テキストTを読み込み、テキストT内からユーザ等によって指定されるカテゴリc(j)(j=1,2,…,Nのいずれか)に該当する箇所s(k)（複数）のうち、最も適切であると判定される箇所s(k_[最適])を選別して出力するものである。この際、入力テキストTは判定部1及び抽出部2へと読み込まれ、実施形態によってはさらに、選別部3へも読み込まれる。また、指定されるカテゴリc(j)の情報は、抽出部2及び選別部3へと入力される。

図２は、入力テキストTの模式例であり、ここでは模式例且つ架空の例として、何らかの公的機関による防犯の注意喚起を促すメールとして、電話による詐欺の未遂がある地域のある日時に発生したため、その旨をメールで情報公開している例である。この例の場合、ユーザがカテゴリc(1)=「日時」を指定することで、抽出装置10はテキストT内からカテゴリc(1)=「日時」に該当する箇所としてs(1)=「一昨日から今日」及びs(2)=「明後日」の2箇所を抽出したうえで、前者のs(1)=「一昨日から今日」の方を最適結果（詐欺未遂があった日時に該当するものとして、当該テキストT内での最適結果）として自動で選別して出力することができる。

なお、図２のメールの例のように、入力テキストTにはメインコンテンツとしての本文と付随情報（メール本文とメールの送受信等に関するヘッダ情報）との区別が予め設けられており、該当箇所s(k)は本文内のみから抽出することができ、「9月14日（6日前）」という付随情報内にあるカテゴリc(1)=「日時」の該当箇所は抽出されないようにすることができる。本文は既に述べた非構造データ（人間が容易に理解できる形式）として構成される。

また、図２の入力テキストTに対してユーザがカテゴリc(2)=「場所」を指定すると、抽出装置10はテキストT内からカテゴリc(2)=「場所」に該当する箇所としてs(1)=「ＡＢＣ町内」のみを抽出し、その他の該当箇所は存在しないため、選別することなくs(1)=「ＡＢＣ町内」を最適結果として出力することができる。

なお、図２の例は説明のための模式例且つ架空例として単純化されているが、本発明はこのような入力テキストTがより複雑なものも含み、多数に存在する場合であっても、当該多数の複雑なテキストの各々に対して同じ処理により自動で情報抽出を行うことが可能なものであることに注意されたい。

なお、入力テキストTは、メールやTwitter、Webページなどの入力データからテキストデータを取得したものとすればよい。メールやTwitterでは本文をテキストデータとして取得する。Webページの場合、例えば、HTMLファイルの中から<BODY>タグで囲まれた部分をテキストデータとして取得する。

以下、具体例を説明する場合は当該説明した図２の例に即した例を用いることとする。抽出装置10が上記のような全体的な動作を実現するために、判定部1、抽出部2及び選別部3はそれぞれ以下のような処理を行う。

判定部1は、入力テキストTを解析してその種別情報t(i)(i=1,2,…,Nのいずれか)を取得し、選別部3へと出力する。判定部1によるテキストTの種別情報t(i)の取得は、任意の既存手法を用いてよく、例えば、前掲の非特許文献２の手法を用いてよい。取得される候補となるそれぞれの種別情報t(i)は予め定義しておけばよい。

非特許文献２では、テキストデータと情報種別の正解ラベルとを学習データとして、情報種別毎に頻出する用語を機械学習し、学習モデルを得る。学習モデルを用いて、未知のテキストデータの情報種別を推定する。情報種別毎に頻出する用語の例として、情報種別が「犯罪_ひったくり」の場合、テキストデータに「ひったくり」、「ひったくられ」、「路上」、「背後から」などの用語が含まれやすい。他の例として、情報種別が「地域イベント_祭り」の場合、テキストデータに「屋台」、「浴衣」、「神輿」などの用語が含まれやすい傾向がある。こうした傾向を利用して、非特許文献２では機械学習により学習モデルを得るようにしている。

図２の入力テキストTの例であれば、例えば図３のように犯罪を分類したものとして4つの情報種別t(i)(i=1,2,3,4)が予め定義されている際に、図２のテキストTが該当する種別情報として判定部1によりt(3)=「犯罪_詐欺」を得ることができる。

抽出部2は、入力テキストTを解析して、ユーザ等によって指定されるカテゴリc(j)（j=1,2,…,Mのいずれか）に該当するテキスト内の箇所（それぞれが１以上の連続した単語ないしフレーズ等で構成される、テキスト内の部分的な箇所）s(k)（k=1,2,…）を抽出して、選別部3へと出力する。

ここで、指定されうる各カテゴリc(j)は図４に例示するように予め所定のものを定義しておく。図４の例は図２の例でも既に用いた通りのc(1)=「日時」及びc(2)=「場所」である。図２の例でも既に述べた通り、図２のテキストTに対して抽出部2に図４の中から例えばc(1)=「日時」を指定すると、該当箇所としてs(1)=「一昨日から今日」及びs(2)=「明後日」の2箇所が抽出され、選別部3へと出力されることとなる。

抽出部2における抽出処理には例えば、前掲した既存手法である非特許文献３や特許文献１を利用することで、特定のカテゴリc(j)に応じたルールベース等の手法（事前登録パターンとの照合等を含む）によりテキストT内でのその該当箇所s(k)を抽出することができる。ここで、抽出部2それ自体は既存手法で実現されるために、既に説明した通り、該当箇所s(k)が複数(k=1,2,…)抽出された場合にその中から最適な１つの箇所s(k_[最適])を選別することができないが、本発明においては次に説明する選別部3によって当該選別することが可能となる。

なお、入力テキストTが図２のメールの例のように送受信ヘッダ等の付随情報とメインコンテンツとしての本文とで構成されている場合、抽出部2における抽出処理の対象は本文のみとしてよい。

選別部3は、判定部1で得た入力テキストTの種別t(i)を考慮することにより、抽出部2で得られた複数の該当箇所s(k) (k=1,2,…)の中から最適と判定されるものs(k_[最適])を選別し、抽出装置10からの最終的な出力として出力する。ここで、最適該当箇所s(k_[最適])に加えて判定部1で得た入力テキストTの種別t(i)も紐づけて出力するようにしてもよい。

なお、抽出部2で得た該当箇所が1か所のみ（s(1)のみ）であった場合、選別部3は当該選別を行うことなくs(1)のみを出力し、抽出部2では該当箇所が得られなかった場合（0個の該当箇所であった場合）、選別部3では当該該当箇所がない旨を出力することができる。

選別部3では具体的に、次のようにして選別を行う。すなわち、種別t(i)(i=1,2,…,Nの各々)とカテゴリc(j)(j=1,2,…,Mの各々)とに関して予め、対応する所定の１つ以上の属性a(i,j,n)（n=1,2,…,A；nは当該定義しておく各属性のインデクス）を定義しておき、複数あるうちの各々の該当箇所s(k)(k=1,2,…)に関して、各属性a(i,j,n)の評価結果e(i,j,k,n)(n=1,2,…,A)を得ることにより、当該評価結果e(i,j,k,n)に基づいて最適箇所s(k_[最適])を選別することができる。

ここで、各属性a(i,j,n)に関して、その該当箇所s(k)における評価結果e(i,j,k,n)を得るための手法は、ルールベース等で所定のものを定義しておけばよい。この際、該当箇所s(k)の情報（テキスト情報）に追加して、入力テキストTの情報も評価に用いるようにしてよい。なお、入力テキストTが図２のメールの例のように送受信ヘッダ等の付随情報とメインコンテンツとしての本文とで構成されている場合、当該追加して評価する対象を付随情報としてもよい。

また、得られた評価結果e(i,j,k,n)(n=1,2,…,A)から最適箇所s(k_[最適])を選別する手法は、ルールベース等として定義しておいてもよいし、予めサポートベクトルマシン等の機械学習で学習しておいた学習モデルを適用するようにしてもよい。学習モデルを適用する場合、得られた評価結果e(i,j,k,n)(n=1,2,…,A)を入力として各該当箇所s(k)の評価スコア値score(i,j,k)を算出することが可能となるので、以下のように当該スコア値が最良となるものを最適箇所s(k_[最適])として選別することができる。

以下、選別部3による選別処理において予め設定しておく属性a(i,j,n)及びその評価評価結果e(i,j,k,n)の取得手法に関して、具体例（第一例及び第二例）を説明する。これらは、既に例示してきた図２ないし図４の例に即した例である。

＜第一例＞
第一例は、指定されたカテゴリc(j)が図４のカテゴリc(1)=「日時」であり、且つ、入力テキストTの情報種別t(i)が図３のいずれかである場合に関する。

なお、抽出箇所s(k)の日時情報が「昨日」や「今日」、「明日」、「先月」などの抽象名詞として得られている場合、情報発信日時の情報を活用して、一意の日時情報に変換したうえで、以下の属性評価を行うようにしてもよい。情報発信日時の情報は、図２のメールの例のように、入力テキストTの付随情報として取得するようにしてもよい。選別部3で最適なものとして出力する日時情報も、当該一意の日時情報に変換されたものを用いるようにしてもよい。

情報発信日時の取得は具体例に、メールやTwitterでは送信日時を情報発信日時として取得する。Webページの場合、例えばWebページの更新日時を情報発信日時として取得する。なお、Webページから更新日時を取得する方法としては、例えばjavascript機能(javascript:alert(document.lastModified))が利用できる。

第一例の場合、図３に示される情報種別t(1)〜t(4)は全て犯罪に関するものであるため、定義しておく各属性a(i,1,n)(i=1,2,3,4)及び各属性の評価手法は共通のものを利用し、評価結果から最適結果を選別する手法だけを情報種別t(1)〜t(4)の各々に応じた個別のものとすることができる。

具体例に、nで識別される各属性a(i,1,n)として、以下の4個（n=1,2,3,4）を定義しておき、各属性に応じた評価結果を得るようにすることができる。なお、以下の4個の全てを用いるのではなく、1個以上の任意の一部のみを用いるようにしてもよい。

（１）n=1の属性として、「情報発信日時との関係」を用いる。すなわち、
a(1,1,1)=a(2,1,1)=a(3,1,1)=a(4,1,1)=「情報発信日時との関係」
と定義しておく。

「情報発信日時との関係」は、情報発信日時と抽出すべき日時（各箇所s(k)が表す日時）との時間的な関係として定義される。当該定義に従ってその評価結果として例えば「未来」「過去」「現在」の３値のいずれかを得るようにすればよい。例えば、情報発信日時が2017年7月7日12時、抽出すべき日時が2017年7月6日18時の場合、評価結果は「過去」となる。

ここで例えば、情報種別がt(1)=「犯罪_ひったくり」やt(2)=「犯罪_声かけ」、t(3)=「犯罪_詐欺」などの場合、入力テキストTにおける発生した犯罪情報の内容になるため、抽出すべき日時情報は情報発信日時より「過去」の傾向があると想定される。一方、防犯講習会や防犯グッズプレゼント会などのt(4)=「犯罪_イベント」の情報種別の場合、これから開催されるイベントの案内が多いため、抽出すべき日時情報は情報発信日時より「未来」の傾向があると想定される。

このように、各情報種別t(1),t(2),t(3),t(4)においてそれぞれ「情報発信日時との関係」の最適結果が異なる傾向があることから、箇所s(k)の評価スコア値score(i,j,k)等に当該異なる傾向が反映され、最適箇所s(k_[最適])の選別が可能になる。

（２）n=2の属性として、「情報発信日時との時間差」を用いる。すなわち、
a(1,1,2)=a(2,1,2)=a(3,1,2)=a(4,1,2)=「情報発信日時との時間差」
と定義しておく。

「情報発信日時との時間差」は、情報発信日時と抽出すべき日時（各箇所s(k)が表す日時）との時間差であり、当該定義の通り計算（減算）やテキスト解析によりその評価結果を得るようにすればよい。例えば、情報発信日時が2017年7月7日12時、抽出すべき日時が2017年7月6日18時の場合、評価結果は+18時間となる。

例えば、情報種別がt(1)=「犯罪_ひったくり」やt(2)=「犯罪_声かけ」、t(3)=「犯罪_詐欺」などの場合、抽出すべき日時(犯罪発生日時)から遅くても1週間程度には情報発信されるなどの傾向が想定される。一方、防犯講習会や防犯グッズプレゼント会などのt(4)=「犯罪_イベント」の情報種別の場合、抽出すべき日時(開催日時)は情報発信日時から最大1年先までを含む傾向が想定される。

このように、各情報種別t(1),t(2),t(3),t(4)においてそれぞれ「情報発信日時との時間差」の最適結果が異なる傾向があることから、箇所s(k)の評価スコア値score(i,j,k)等に当該異なる傾向が反映され、最適箇所s(k_[最適])の選別が可能になる。

（３）n=3の属性として、「日時情報の粒度」を用いる。すなわち、
a(1,1,3)=a(2,1,3)=a(3,1,3)=a(4,1,3)=「日時情報の粒度」
と定義しておく。

「日時情報の粒度」は、抽出すべき日時情報（各箇所s(k)が表す日時情報）の粒度であり、当該定義の通りにテキスト解析等により評価結果を得る。例えば、評価結果として、「年粒度以上」、「月粒度」、「日粒度」、「時間粒度」、「分粒度以下」の５値のいずれかを得るようにしてよい。この場合、ある箇所s(k)=「2017年7月7日」であったとするとその評価結果は「日粒度」となり、ある箇所s(k)=「2017年7月8日15時30分」であったとするとその評価結果は「分粒度以下」になる。

情報種別がt(1)=「犯罪_ひったくり」やt(2)=「犯罪_声かけ」、t(4)=「犯罪_イベント」などの場合、「時間粒度」や「分粒度以下」などの詳細な日時情報の傾向があることが想定される。一方、t(3)=「犯罪_詐欺」の場合、「日粒度」辺りの大雑把な日時情報の傾向が高いことが想定される。このように、各情報種別t(1),t(2),t(3),t(4)においてそれぞれ「日時情報の粒度」の最適結果が異なる傾向があることから、箇所s(k)の評価スコア値score(i,j,k)等に当該異なる傾向が反映され、最適箇所s(k_[最適])の選別が可能になる。

（４）n=4の属性として、「時間帯」を用いる。すなわち、
a(1,1,4)=a(2,1,4)=a(3,1,4)=a(4,1,4)=「時間帯」
と定義しておく。

これは、時間帯という言葉の定義通り、抽出すべき日時情報（各箇所s(k)が表す日時情報）の該当する時間帯であり、定義通りにその評価結果を得ることができ、例えば、一日を24時間で区切って、その24通りの時間帯のいずれに該当するかを0〜23として評価結果を得るようにしてよい。なお、時間帯の評価結果を得ることができない場合、すなわち（３）で説明した「日粒度」以上の場合は例えば「-1」とすることで、「時間帯」に対する評価結果を得ることができなかった旨を評価値として得るようにしてよい。

例えば、ある箇所s(k)=「2017年7月8日15時30分」であった場合、その評価結果は「15」となり、ある箇所s(k)=「2017年7月7日」であった場合、その評価結果は「-1」となる。

情報種別がt(2)=「犯罪_声かけ」の場合、登下校の時間帯の傾向があることが想定される。一方、t(1)=「犯罪_ひったくり」の場合、夜間が多い傾向があることが想定される。このように、各情報種別t(1),t(2),t(3),t(4)においてそれぞれ「時間帯」の最適結果が異なる傾向があることから、箇所s(k)の評価スコア値score(i,j,k)等に当該異なる傾向が反映され、最適箇所s(k_[最適])の選別が可能になる。

以上、第一例における（１）〜（４）の、例としての属性とその評価結果リストとをまとめて、表形式で図５に示す。

第一例による評価結果に対し、機械学習等の学習モデルを適用して評価スコア値score(i,j,k)（第一例ではj=1）を得るようにするためには、予め正解を与えて学習を行っておく必要がある。図６に、図３の4つの情報種別t(i)(i=1,2,3,4)に対して、当該共通の4属性に関してそれぞれ3個用意した正解データ（4×3=合計12個）の例を表形式で示す。このような正解データを入力に機械学習することで、カテゴリc(j)=c(1)=「日時」の場合の、各情報種別t(i)におけるスコア値score(i,1,k)=score(i,1,k)を0〜1の範囲で出力する日時情報推定基準が得られる。機械学習モデルとしてはサポートベクトルマシンなどを用いた1クラス分類問題を適用できる。

＜第二例＞
第二例は、指定されたカテゴリc(j)が図４のカテゴリc(2)=「場所」であり、且つ、入力テキストTの情報種別t(i)が図３のいずれかである場合に関する。

この場合も、図３に示される情報種別t(1)〜t(4)は全て犯罪に関するものであるため、定義しておく各属性a(i,2,n)(i=1,2,3,4)及び各属性の評価手法は共通のものを利用し、評価結果から最適結果を選別する手法だけを情報種別t(1)〜t(4)の各々に応じた個別のものとすることができる。

具体例に、nで識別される各属性a(i,2,n)として、以下の4個（n=1,2）を定義しておき、各属性に応じた評価結果を得るようにすることができる。なお、以下の2個の全てを用いるのではなく、いずれか片方のみを用いるようにしてもよい。

（１）n=1の属性として、「場所情報の種類」を用いる。すなわち、
a(1,2,1)=a(2,2,1)=a(3,2,1)=a(4,2,1)=「場所情報の種類」
と定義しておく。

これは「場所情報の種類」という言葉の定義の通りにテキスト解析によって評価することができ、例えば、「屋外」、「宅内」、「屋内」、「不明」の４値として評価することができる。「不明」はその前の３つ「屋外」、「宅内」、「屋内」のいずれにも該当しなかった場合の値である。

例えば、情報種別がt(1)=「犯罪_ひったくり」やt(2)=「犯罪_声かけ」の場合は路上や交差点、公園などの屋外で犯罪が発生する場合が多いため、「屋外」の傾向があることが想定される。t(3)=「犯罪_詐欺」の場合は、自宅への固定電話や自宅へ届く葉書などを通して犯罪が発生する場合が多いため、「宅内」の傾向があることが想定される。t(4)=「犯罪_イベント」の場合は、「屋外」と「屋内」の両方の可能性があることが想定される。

このように、各情報種別t(1),t(2),t(3),t(4)においてそれぞれ「場所情報の種類」の最適結果が異なる傾向があることから、箇所s(k)の評価スコア値score(i,j,k)等に当該異なる傾向が反映され、最適箇所s(k_[最適])の選別が可能になる。

（２）n=2の属性として、「場所情報の粒度」を用いる。すなわち、
a(1,2,2)=a(2,2,2)=a(3,2,2)=a(4,2,2)=「場所情報の粒度」
と定義しておく。

これは「場所情報の粒度」という言葉の定義の通りにテキスト解析によって評価することができ、例えば、評価値として、「都道府県粒度」「市町村粒度」「番地粒度」の３値によって評価することができる。この場合、ある箇所s(k)=「埼玉県ふじみ野市大原2-1-15」であったとすると、その評価値は「番地粒度」となり、ある箇所s(k)=「埼玉県ふじみ野市」であったとすると、その評価値は「市町村粒度」になる。

例えば、情報種別がt(1)=「犯罪_ひったくり」やt(2)=「犯罪_声かけ」、t(4)=「犯罪_イベント」などの場合、「番地粒度」の詳細な場所情報の傾向があることが想定される。一方、t(3)=「犯罪_詐欺」の場合、「市町村粒度」の大雑把な場所情報の傾向が高いことが想定される。

このように、各情報種別t(1),t(2),t(3),t(4)においてそれぞれ「場所情報の粒度」の最適結果が異なる傾向があることから、箇所s(k)の評価スコア値score(i,j,k)等に当該異なる傾向が反映され、最適箇所s(k_[最適])の選別が可能になる。

以上、第二例における（１）及び（２）の、例としての属性とその評価結果リストとをまとめて、表形式で図７に示す。

第二例の場合も、第一例の場合と全く同様に、正解データを与えることで予め機械学習を行っておくことで評価スコアを自動算出することが可能である。図８は第二例における正解データの例として、図３の4つの情報種別t(i)(i=1,2,3,4)に対して、当該共通の2属性に関してそれぞれ3個用意した正解データ（4×3=合計12個）の例を表形式で示す。

図９は、選別部3において学習モデルを利用する場合の、当該学習モデルを構築するための一実施形態に係る学習装置の機能ブロック図である。学習装置20は、学習判定部11、学習抽出部12及び学習部13を備える。学習判定部11及び学習抽出部12のそれぞれの個別の機能は、図１の抽出装置10における判定部1及び抽出部2と同一であるため、重複した説明は省略する。

すなわち、学習判定部11は学習用の入力テキストT（一般に多数存在するそれぞれの入力テキストT）に対して、判定部1と同様の処理を行い、その情報種別t(i)を取得して学習部13へと出力する。学習抽出部12は、ユーザ等により指定されるカテゴリc(j)の該当箇所s(k)を入力テキストT内から、抽出部2と同様の処理によって抽出して学習部13へと出力する。

こうして、学習部13では多数の学習用の入力テキストTに関して、多数の該当箇所s(k)にテキストTの情報種別t(i)とユーザ指定のカテゴリc(j)と、が紐づけられたデータを受け取ることとなる。当該データに対してさらに、マニュアル等で指定される教師データ（正解、不正解を識別するデータ）を紐づけた学習データによって機械学習を行うことで、学習部13では情報種別t(i)及びカテゴリc(j)に対応する学習モデルModel(i,j)を学習結果として出力することができる。

なお、前述の図６及び図８は、正解（正例）としての学習データの例となっているが、不正解（負例）も加えた学習データを利用することも可能である。

以上、本発明によれば、情報種別t(i)とカテゴリc(j)とを考慮することにより、抽出された箇所s(k)が複数あった場合に、最適なものs(k_[最適])を自動で選別することができる。以下、本発明の説明上の補足を述べる。

＜１＞以上の第一例及び第二例は入力テキストTが犯罪発生情報であることを想定していたが、その他の種類の情報にも本発明は同様に適用可能である。例として、地域イベント情報と道路交通情報にそれぞれ適用する場合を要点のみに関して簡潔に説明する。これらの例に関しても図４の指定カテゴリc(1)=「日時」及びc(2)=「場所」に関する抽出が、それぞれ対応する情報種別t(i)及び属性a(i,j,n)(j=1,2)を定義しておくことによって可能である。

特に、属性（及びその評価）に関しては、以下のように第一例及び第二例の場合と同様の属性（及びその評価）が利用可能であるが、その他の属性を定義して利用することも可能である。

＜１−１＞地域イベント情報の場合
地域イベント情報の情報種別として、t(11)=「地域イベント_祭り」、t(12)=「地域イベント_展示会」、t(13)=「地域イベント_音楽」、t(14)=「地域イベント_フリーマーケット」の4個を例に説明する。

＜１−１−１＞カテゴリc(1)=「日時」を指定する場合
地域イベントで抽出すべき日時情報は開催日時である。将来開催される地域イベントの案内や、開催された地域イベントの報告、感想などが情報発信される場合があるため、属性「情報発信日時との関係」は「過去」、「未来」の両方の場合が想定される。属性「情報発信日時との時間差」について、将来開催される地域イベントの案内の場合は、情報発信日時が開催日時に対して、最大1年間前まで含む傾向が想定される。一方、開催されたイベントの報告や感想の場合、情報発信日時が開催日時に対して最大1か月後の傾向が高いことが想定される。属性「日時情報の粒度」について、開催日時は「時間粒度」や「分粒度以下」の傾向が高いことが想定される。「時間帯」について、9時〜18時の間の時間帯の傾向が高いことが想定される。

＜１−１−２＞カテゴリc(2)=「場所」を指定する場合
地域イベントで抽出すべき場所情報は開催場所である。情報種別により属性「場所情報の種類」は「屋外」、「屋内」のどちらかの傾向が高いことが想定される。属性「場所情報の粒度」は「番地粒度」の傾向が高いことが想定される。

＜１−２＞道路交通情報の場合
道路交通情報の情報種別として、t(21)=「道路交通情報_交通事故」、t(22)=「道路交通情報_渋滞」、t(23)=「道路交通情報_通行止め」の3個を例に説明する。

＜１−２−１＞カテゴリc(1)=「日時」を指定する場合
属性「情報発信日時との関係」について、「道路交通情報_交通事故」と「道路交通情報_渋滞」は「過去」、「道路交通情報_通行止め」は「未来」、「過去」の傾向が高いことが想定される。属性「日時情報の粒度」について、「道路交通情報_交通事故」と「道路交通情報_通行止め」は「時間粒度」や「分粒度以下」、「道路交通情報_渋滞」は「日粒度」や「時間粒度」の傾向が高いことが想定される。属性「時間帯」については24時間の何れの可能性もあることが想定される。

＜１−２−２＞カテゴリc(2)=「場所」を指定する場合
情報種別に共通して、属性「場所情報の種類」は「屋外」の傾向が高いことが想定される。属性「場所情報の粒度」について、「道路交通情報_交通事故」と「道路交通情報_通行止め」は「番地粒度」、「道路交通情報_渋滞」は「市町村粒度」の傾向が高いことが想定される。

＜２＞抽出装置10及び学習装置20に関して、非構造データとしての入力テキストTに含まれる犯罪や地域イベントの件数は1件を前提とする。なお、複数件を含む非構造データの場合は、先ず1件毎の非構造データに分割することで、本発明の技術を適用できる。非構造データの分割には前掲の非特許文献４などを利用すればよい。

＜３＞以上、犯罪、道路交通情報、地域イベントのテキストにおいて日時、場所というカテゴリを扱う場合を説明したが、これらは好適な具体例に過ぎず、任意ジャンルのテキストにおいて任意のカテゴリに対して本発明を同様に適用可能である。（ただし、具体例で説明したような性質を満足するような適切な属性とその評価手法とが予め設定される必要はある。）カテゴリに関しては日時、場所のような一般的なものではなく、ジャンルに特化したカテゴリを設定してもよい。例えば、犯罪に関するテキスト（図２に例示した防犯情報等のテキスト）を対象とする場合に、当該分野に特化したカテゴリとして、「被害者の年齢」、「被害者の性別」、「犯人（被疑者）の年齢」、「犯人（被疑者）の性別」などを、適切な属性及びその評価法を定義しておいたうえで指定するようにしてもよい。また、地域イベントに関するテキストを対象とする場合に、当該分野に特化したカテゴリとして、「対象者の年齢」、「対象者の性別」、「参加費」などを、適切な属性及びその評価法を定義しておいたうえで指定するようにしてもよい。属性に関する評価法に関しては、既に具体例を説明したのと同様に、主としてテキスト解析やルールベースによるものを用いることができる。

＜４＞抽出装置10及び学習装置20はそれぞれ、一般的な構成のコンピュータとして実現可能である。すなわち、CPU（中央演算装置）、当該CPUにワークエリアを提供する主記憶装置、ハードディスクやSSDその他で構成可能な補助記憶装置、キーボード、マウス、タッチパネルその他といったユーザからの入力を受け取る入力インタフェース、ネットワークに接続して通信を行うための通信インタフェース、表示を行うディスプレイ、カメラ及びこれらを接続するバスを備えるような、一般的なコンピュータによって抽出装置10及び学習装置20を構成することができる。また、図１及び図９に示す抽出装置10及び学習装置20の各部の処理はそれぞれ、当該処理を実行させるプログラムを読み込んで実行するCPUによって実現することができるが、任意の一部の処理を別途の専用回路等において実現するようにしてもよい。

10…抽出装置、1…判定部、2…抽出部、3…選別部

Claims

入力テキストを解析してその情報種別を判定する判定部と、
前記入力テキストを解析して、指定されるカテゴリに対する該当箇所を抽出する抽出部と、
前記該当箇所が複数抽出された場合に、前記情報種別及び前記カテゴリに基づいて最適な該当箇所を選別する選別部と、を備えることを特徴とする抽出装置。
前記選別部では、前記情報種別及前記カテゴリに応じて予め定義される１つ以上の属性に関して、前記複数抽出された該当箇所における当該属性の評価結果を求め、当該評価結果に基づいて前記最適な該当箇所を選別することを特徴とする請求項１に記載の抽出装置。
前記指定されるカテゴリは日時であり、
前記予め定義される１つ以上の属性は、入力テキストに紐づいた情報発信日時との関係、入力テキストに紐づいた情報発信日時との時間差、粒度、時間帯、からなるグループより選択されるものを含むことを特徴とする請求項２に記載の抽出装置。
前記指定されるカテゴリは場所であり、
前記予め定義される１つ以上の属性は、種類及び粒度からなるグループより選択されるものを含むことを特徴とする請求項２に記載の抽出装置。
前記選別部では、前記情報種別及前記カテゴリごとに予め機械学習された学習モデルを用いて、前記最適な該当箇所を選別することを特徴とする請求項１ないし４のいずれかに記載の抽出装置。
前記選別部では、前記該当箇所が１つのみ抽出された場合には当該１つの該当箇所を出力し、前記該当箇所が抽出されなかった場合には当該抽出されなかった旨を出力することを特徴とする請求項１ないし５のいずれかに記載の抽出装置。
前記選別部では、前記最適な該当箇所と、前記情報種別と、を紐づけて出力することを特徴とする請求項１ないし６のいずれかに記載の抽出装置。
コンピュータを請求項１ないし７のいずれかに記載の抽出装置として機能させることを特徴とするプログラム。