JP2009265908A - 個人プロファイル抽出方法、人物検索方法及び装置 - Google Patents

個人プロファイル抽出方法、人物検索方法及び装置 Download PDF

Info

Publication number
JP2009265908A
JP2009265908A JP2008114211A JP2008114211A JP2009265908A JP 2009265908 A JP2009265908 A JP 2009265908A JP 2008114211 A JP2008114211 A JP 2008114211A JP 2008114211 A JP2008114211 A JP 2008114211A JP 2009265908 A JP2009265908 A JP 2009265908A
Authority
JP
Japan
Prior art keywords
experience
description
text data
writer
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008114211A
Other languages
English (en)
Inventor
Yaemi Teramoto
やえみ 寺本
Yasutsugu Morimoto
康嗣 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008114211A priority Critical patent/JP2009265908A/ja
Publication of JP2009265908A publication Critical patent/JP2009265908A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】個人の記述したテキストを分析し、個人の経験した事柄のプロファイルを作成することで、企業内の経験者の検索を可能にする。
【解決手段】個人が記述したテキストから、該個人が自身の経験に関して記述している部分を抽出し、抽出された経験記述テキストから個人プロファイル(経験プロファイル)を作成する。個人プロファイル抽出装置は、個人記述テキストから動作と動作主の記述のペアを抽出する動作・動作主抽出部と、抽出した動作・動作主の記述のペアが経験の記述を表すかどうかを判定する経験記述判定部と、経験記述であった場合に経験した内容を表すキーワードを抽出する経験プロファイル抽出部とを備える。
【選択図】図1

Description

本発明は、テキストマイニングの手法を用いた個人プロファイル抽出装置及び方法、並びにプログラム、及びそれを用いた人物検索装置に関する。
近年、企業内SNS(Social Network Service)や社内報告書DB(データベース)などの企業内情報共有の仕組みの発展に伴い、文書などに蓄積された共有情報を基に企業内で見識を持った人を検索する「人物検索」が着目されている。この人物検索を実現する際には、個人のプロファイルをいかに生成するかが重要である。
個人のプロファイルを含む文書情報を作成する手法としては、個人が端末に入出力した情報から、入出力時刻、参照関係、単語出現頻度、出現位置、強調情報等に基づいて特徴値を抽出し、特徴値に基づいた個人知識データを作成する方法が知られている(例えば、特許文献1)。
また、ユーザが作成・引用・参照した文書から、単語の品詞や標記のパタン辞書を用いて特徴語列を抽出する方法が知られている(例えば、特許文献2)。この方法により、ユーザにとって興味の対象となる固有名詞(研究機関、製品名等)などを適切に抽出することが可能になる。また、抽出した語の意味カテゴリ(要求、嗜好、知識等)の判別を後続単語の表記パタンにより行っている。
特開2006-146621号広報 特開2004-110435号広報
業務において他者からの情報を求める場合、他者が業務において経験した内容から示唆を得たいと考えることが多い。しかし、上記特許文献1に開示されるような方法で個人プロファイルを作成した場合、該個人の知識、経験、今後の予定、質問、等あらゆるタイプの記述からプロファイルを作成することになり、個人プロファイルが、業務において求められる個人の見識を適切に表すことができない場合がある。また、上記特許文献2では、特徴単語の意味カテゴリを後続する単語のパタンによってとらえようとしているが、「誰の」経験なのかということはとらえられない。このため、抽出した単語と個人の関連を特定することはできない、という問題がある、また、上記特許文献2では、「経験」の記述を表すパタンをどう定義するかについては述べられていない。
本発明の目的は、個人の記述したテキストを分析し、個人の経験した事柄のプロファイルを作成することで、企業内の人物検索の要求により適合した個人プロファイルを作成し、企業内の経験者の検索を可能にすることである。
本発明は、テキストデータを保持するデータ保持部と、前記データ保持部に保持された前記テキストデータから個人に関連する情報を抽出するデータ処理部を含む情報処理装置によって実行される個人プロファイル抽出方法であって、前記テキストデータと、当該テキストデータを記述した記述者の識別子を取得し、前記テキストデータから動作と動作主のペアを抽出し、前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定し、前記判定結果が前記記述者の経験したことの記述である場合には、前記経験した内容を表すキーワードを前記テキストデータから抽出する。
また、前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かの判定は、前記動作主が一人称であり、かつ動作が過去に起こったことを表す場合に、経験したことの記述であると判定する。
また、前記抽出したキーワードに前記記述者の識別子を対応付けた情報を個人プロファイルとして保持する。
本発明によれば、個人の記述したテキストから、個人の経験を表すプロファイルを抽出することが可能となり、経験事例や経験者の検索が可能となる。
<第1実施形態>
以下、本発明の一実施形態を添付図面に基づいて説明する。
図1は、本発明の第1の実施形態を示し、本発明を適用する人物検索装置の構成を示すブロック図である。人物検索装置1は、CPU11、メモリ12、通信装置13、プログラム記憶装置14、及びデータ記憶装置18によって構成される計算機(または情報処理装置)である。プログラム記憶装置14は、個人プロファイル抽出プログラム15、個人記述テキスト収集プログラム16、人物検索プログラム17、送受信制御プログラム18を格納する。CPU11は、プログラム記憶装置14から読み込んだ各プログラムをメモリ12にロードして実行する。
個人プロファイル抽出プログラム15は、文分割プログラム151、動作・動作主抽出プログラム152、経験記述判定プログラム153、経験プロファイル抽出プログラム154を有する。データ記憶装置18は、個人プロファイルデータベース181、個人記述テキストデータベース182を有する。なお、プログラム記憶装置14は、計算機で読み込み可能な記憶媒体であっても良い。また、人物検索装置1は、通信装置13を介して図示しないクライアント計算機と通信することができる。
本発明の人物検索装置1は、通信装置13を介して複数のクライアント計算機から個人記述テキストデータを収集して、個人記述テキストデータベース182に格納しておき個人プロファイル抽出プログラム152が個人記述テキストデータベース182を読み込んで、記述者が経験した記述内容を経験プロファイルとして抽出する。そして、人物検索プログラム17は、クライアント計算機からのクエリに基づいて、経験プロファイルを検索し、該当する経験の記述内容と記述者を提示するものである。
まずは、図2、図3、図4、図5のフローチャートと、図6〜13のデータ例を用いて、本発明の主要部分である、個人プロファイル抽出プログラム15の処理の流れを説明する。個人記述テキスト収集プログラム16、人物検索プログラム17、送受信制御プログラム18については、後に詳述する。
図2は、個人プロファイル抽出プログラム15の処理の流れを示すフローチャートである。個人プロファイル抽出プログラム15の入力は、個人記述テキストデータである。個人記述テキストデータは、図6に示すような、個人記述テキストテーブル60の形式で、個人記述テキスト収集プログラム16によって個人記述テキストデータベース182に保存される。本実施形態では、個人記述テキスト収集プログラム16が複数のクライアント計算機から個人記述テキストデータを予め個人記述テキストデータベース182に収集しておいた場合を示す。
個人記述テキストデータベース182の個人記述テキストテーブル60は、図6のように、記述ID61、記述者ID62、記述内容63の情報を持つ。記述ID61は、テキストファイル1件、ブログ記事1件、などの単位でテキストを識別するためのIDである。記述者ID62は、記述を作成した人物を識別するためのIDである。記述内容63は、記述の内容を表すテキストである。個人記述テキストデータは、個人プロファイルの情報源であり、例えば、ブログ記事、個人作成のテキストファイル、メールなど、記述者情報が付与されたテキストデータであればいかなるデータでもよい。あるいは、テキスト情報を含み、記述者情報が付与されたデータファイルから個人記述テキストデータを収集してもよい。
個人記述テキストテーブル60の1つのエントリを、経験プロファイル抽出プログラム15に入力する。ここでは、図6の記述ID61が「1」の個人記述テキストを入力したとする。
まず、図2の文分割ステップS21では、入力された個人記述テキストデータを、句点、文末記号(!や?など)、改行などの位置で、文単位に分割し、図7に示すような、個人記述文テーブル70を出力する。図7の個人記述文テーブル70は、記述ID71、記述者ID72、文ID73、記述内容74の情報を持つ。記述ID71、記述者ID72は、図6に示した個人記述テーブルのそれらと同じである。文ID73は、文分割ステップS21で分割した各文を識別するためのIDで、例えば、人物検索装置1が自動的に付与した値シリアル値などである。記述内容74は、個人記述テキストテーブル60の記述内容63から分割した一文の記述内容を表すテキストである。前記の入力テキストを文分割した出力を図7に示す。文分割ステップS21の処理によって、記述63を、一つの意味のまとまりである文を単位として扱うことが可能となる。
動作・動作主抽出ステップS22では、図7に示した個人記述文テーブル70が入力され、動作と動作主の記述のペアを抽出し、図11に示すような動作・動作主テーブル110を出力する。動作・動作主テーブル110は、記述ID111、文ID112、動作主113、動作記述114の情報を持つ。記述ID111、文ID112は動作主、動作記述の抽出元の記述及び文を識別するためのIDである。動作主113は抽出した動作主(動作の主体)を表す。動作記述114は抽出した動作記述(動作主が行った述語)を表す。動作・動作主抽出ステップS22の処理によって、図7の個人記述文テーブル70の記述内容74に含まれる人物の行動、すなわち経験記述の候補を抽出することが可能となる。動作・動作主抽出ステップS22の処理は後に詳述する。
経験記述判定ステップS23では、図11の動作・動作主テーブル110が入力され、動作・動作主ペアが経験記述であるかどうかを判定し、図12に示すような、経験記述判定テーブルを出力する。経験記述判定テーブル120は、記述ID121、文ID122、動作主123、動作記述124、経験術判定125の情報を持つ。記述ID121、文ID122、動作主123、動作記述124は、図11に示した動作・動作主テーブル110のそれらと同じである。経験記述判定ステップS23の処理によって、ステップS22で抽出した経験記述候補から、どの記述が経験記述であるかを判別することが可能となる。経験記述判定ステップS23の処理の詳細は後に詳述する。
経験プロファイル抽出ステップS24では、図7の個人記述文テーブル70と図11の経験記述判定テーブル120が入力され、これらの2つのテーブルから経験キーワードを抽出し、図13に示すような、経験プロファイルテーブルを出力する。経験プロファイルテーブル130は、記述ID131、記述者ID132、経験プロファイル133の情報を持つ。記述ID131、記述者ID132は、経験プロファイルの抽出元である記述と該記述を作成した人物を識別するためのIDである。経験プロファイル133は経験内容を表すキーワードと重みの集合である。この経験プロファイルは、対応する記述者ID132のプロファイルとなる。経験プロファイル抽出ステップS24の処理によって、経験の内容をキーワードで表すことが可能となり、経験者の検索が容易になる。
なお、上記の処理では、個人記述文テーブル70、動作・動作主テーブル110及び経験プロファイルテーブル130は、データ記憶装置18に格納される。
以下に、図3のフローチャートを用いて、動作・動作主抽出ステップS22の処理の流れを説明する。動作・動作主抽出ステップS22には、図7に示した個人記述文テーブル70が入力される。構文解析ステップS31では、入力された個人記述文テーブル70の各文に対し構文解析を行い、図8に示す構文解析テーブルを出力する。図8の構文解析テーブル80は、記述ID81、文ID82、文節ID83、係り先文節ID84、形態素85、品詞86の情報を持つ。記述ID81、文ID82は、解析された入力文を識別するためのIDである。文節ID83は、構文解析によって抽出された文節を識別するためのIDである。係り先文節ID84は、記述ID、文ID、文節IDによって特定される文節の構文上の係り先の文節を識別するためのIDである。形態素85は、入力文を形態素解析した結果の形態素を表す。品詞86は、形態素の品詞を表す。構文解析は、公知または周知の手法を用いれば良く、例えば、「Applying Conditional Random Fields to Japanese Morphological Analysis」(工藤拓 他著、EMNLP 2004)や「Japanese Dependency Analysis using Cascaded Chunking」(工藤拓 他著、CONLL 2002)に開示される手法等を適用することができる。
図8の構文解析テーブル80の値は、図7に示した個人記述文テーブル70の文ID73が「1」の「私は、製品Aの機能拡張に関して、顧客Aに提案しました。」という記述の構文解析結果例である。この構文解析結果例は、構文解析器CaboCha(http://chasen.org/~taku/software/cabocha/ 2008年2月1日検索)の実行結果に基づいている。構文解析結果では、入力文が文節1〜5の5つの文節に分割され、文節間の係り受け関係が、文節1,3,4は文節5に係り、文節2は文節3に係る、と解析されている。文節5は係り先文節を持たないので、係り先文節IDの欄には−1が示されている。また、各文節は形態素解析され、単語毎に品詞情報が付与されている。
図9は、図8に示した解析結果例の、文節間の係り受け関係を図示する。図9では、係り元の文節から係り先の文節へ、矢印が示されている。例えば、文節1は文節5に係ることが示されている。構文解析ステップS31の処理によって、ひとつの文が形態素に分割され、また係り受け関係が判明するので、品詞を用いて語を選定したり、係り受けを用いて語間の関係を特定したりすることが可能となる。
次に動作主判定ステップS32では、構文解析テーブル80が入力され、構文解析結果に含まれる動作記述、すなわち動詞を含む文節に対し、係る文節の格の情報を用いて動作主を判定し、図10に示す動作・動作主テーブル100を出力する。動作・動作主テーブル100は、記述ID101と、文ID102と、判定した動作主103と、動作主103の動作記述104から構成される。
動作主判定の方法としては、表層格を用いる単純なものでは、動作記述に係る文節のうち、ハ格とガ格(格助詞がハまたはガであるもの)の文節の名詞を動作主と判定するという方法がある。また、「自動構築した大規模格フレームに基づく構文・格解析の統合的確率モデル」(河原大輔 他著、自然言語処理、Vol.14, No.4, pp.67-81, 2007)に開示されるような格フレームを用いた格解析を行い、動作主格の名詞を動作主とする方法もある。前記表層格を用いた方法では、図8の構文解析結果が入力された場合、「提案しました。」という動作記述に対し、この動作記述からなる文節5に係る文節のうち、文節1の「私は」がハ格であるので、動作主は「私」であると判定される。動作主判定の処理結果である図10の動作・動作主テーブル100において、動作主の項に「−」と示してあるのは、解析した文中に動作主が明示されていなかったことを表す。動作主判定ステップS32により、動作記述に対する動作主が特定され、動作が誰の行ったものなのかを判別することが可能になる。
動作主判定ステップS32において、全ての動作記述に対する動作主が判定された場合は、動作・動作主テーブル110を出力して処理を終了する。動作主が判定されない動作が存在した場合は、動作主推定ステップS33に進み、動作主を推定し、図11に示す動作・動作主テーブル110を出力する。動作主が明記されていない動作記述に対して動作主を推定する方法としては、最も単純なものでは、直前の動作記述の動作主を採用する方法や、記述者本人を動作主とする方法などがある。これらの方法を用いた場合は、動作主推定ステップの入力は図10に示す動作・動作主テーブル100となる。また、「自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析」(河原大輔 他著、自然言語処理、 Vol.11, No.3, pp.3-19, 2004)に開示されるような、格フレームと機械学習を用いた方法によって動作主を推定することも可能である。この場合、動作主推定ステップの入力は、図7に示す個人記述文テーブル70と、図10に示す動作・動作主テーブル100となる。図10の動作・動作主テーブル100を入力し、動作主不明の文ID=「2」の動作主を、前記直前の動作記述の動作主を採用する方法にて推定した結果を図11に示す。文IDが「2」の直前の動作記述は文IDが「1」の「提案しました。」であるので、「提案しました。」の動作主である「私」が文ID=「2」の動作主であると推定される。動作主推定ステップS32により、動作記述に対する動作主が文中に明記されていない場合でも動作主が特定され、動作が誰の行ったものなのかを判別することが可能になる。以上の処理により、各文の動作記述104に対応する動作主103が推定され、図10の動作・動作主テーブル100が出力される。
次に、図4のフローチャートを用いて、経験記述判定ステップS23の処理の流れを説明する。経験記述判定ステップS23には、図11の動作・動作主テーブル110が入力され、各動作・動作主が経験記述であるか否かを判定し、図12に示す経験記述判定テーブル120を出力する。経験記述判定ステップS23では、動作・動作主テーブル110の各動作・動作主ペアに対し、まずステップS41において動作主が一人称であるかを調べる。動作主が一人称でなければステップS44に進み、経験記述ではないと判断される。
動作主が一人称であればステップS42に進み、動作の発生時が過去であるかを調べる。動作の発生時が過去であるかを判定する方法としては、最も単純なものでは、動作記述からなる文節に過去を表す助動詞「た、だ」が含まれていれば過去と判定するという方法がある。また、動作記述を含む文に、「昨日」「先日」などの過去を表す記述が含まれているかといった基準を用いることも可能である。動作の発生時が過去でなければステップS44に進み、経験記述ではないと判断される。過去であればステップS43に進み、経験記述であると判断される。
以上の処理により、図11の動作・動作主テーブル110から動作主が一人称で、動作が過去の場合には、現在着目している文章に経験記述が含まれると判定することができる。
続いて、図5のフローチャートを用いて、経験プロファイル抽出ステップS24の処理の流れを説明する。経験キーワード抽出ステップS24では、図12に示した経験記述判定テーブル120が入力され、経験キーワードを抽出し、図13に示す経験プロファイルテーブル130を出力する。まず、経験記述部分抽出ステップS51において、入力された経験記述判定テーブル120において経験記述である動作・動作主のペアに関連する、経験記述部分が抽出される。関連する経験記述部分の決定方法としては、着目している動作・動作主を含む文とする方法、動詞・動作主を含む文節とそれに係る文節とする方法、などが挙げられる。前者の方法では、経験記述部分抽出ステップS51の入力に、個人記述文テーブル70が必要である。後者の方法では、経験記述部分抽出ステップS51の入力に、構文解析テーブル80が必要である。経験記述部分抽出ステップS51によって、経験の内容を表す記述部分が特定され、経験キーワードの抽出が可能となる。
次に、経験キーワード抽出ステップS52において、抽出した経験記述から経験キーワードを抽出する。経験キーワードの抽出方法としては、経験記述に現れる単語から名詞・動詞などの内容語に限定して取り出す方法などがある。また、抽出したキーワードに対し、重要度などの重み付けをしてもよい。重み付けの方法としては、経験記述内での該キーワードの出現回数を重みとする方法や、経験記述が含まれるテキスト内での該キーワードのtf−idf値を重みとする方法、などが考えられる。tf−idf法は文書中の単語の重要度を算出する基本的なアルゴリズムであり、文書j中の単語iの重要度は下記の式によって算出される。
tf−idf = tfi,j × log(|D|/dfi)
ただし、tfi,jは文書j中の単語iの出現頻度、|D|は全文書数、dfiは単語iを含む文書数を表す。経験キーワード抽出ステップS52によって、経験内容をキーワードの集合からなるプロファイルとして表すことが可能となり、経験者や経験内容の検索が容易になる。
経験プロファイル抽出ステップS24に、図7の個人記述文テーブル70と図12の経験記述判定テーブル120が入力された際の、経験プロファイルテーブル130の出力例を図13に示す。図13において経験プロファイル133は、経験記述部分は文により抽出し、経験キーワードの重みは出現回数を用いた場合の出力例である。経験プロファイルテーブル130は、データ記憶装置18の個人プロファイルデータベース181に保存される。
以上のように、第1の実施形態によれば、一つの文から動作記述と動作主を抽出し、動作主が一人称で、動作記述が過去を表す記述を経験記述として判定し、この経験記述に関連する文または文節から経験キーワードを抽出し、記述者のID132とともに経験プロファイルとして経験プロファイルテーブル130に格納する。
これにより、個人の記述したテキストを分析し、個人が経験した事柄のプロファイルを作成することができ、この経験プロファイルテーブル130を参照することで、任意のキーワード(経験キーワード)から企業や組織内の経験者の検索を容易に行うことが可能となる。
<第2実施形態>
図14は、第2の実施形態を示し、前記第1実施形態の人物検索装置1を利用した人物検索システムの構成ブロック図を示す。図14において、人物検索装置141は、ネットワーク142を介して情報端末143に接続される。情報端末143は、個人が業務文書作成、ウェブ・メール・チャットなどによるメッセージ交換等のテキスト作成に用いるとともに、人物検索装置141への入出力端末としての機能を持つ。
人物検索装置141の構成は、前記第1実施形態に示した人物検索装置1と同様である。人物検索装置141で行われる処理の一例を示すフローチャートを図15に示す。人物検索装置141の処理は、大きく2つに分けられる。情報端末143から文章を収集して個人プロファイルを生成する処理と、情報端末143からの検索要求を受けて個人プロファイルを検索する処理である。
個人プロファイルを生成する処理は、図15の個人記述テキスト収集ステップS151、個人プロファイル抽出ステップS152の処理からなる。個人記述テキスト収集ステップS151では、個人記述テキスト収集プログラム16によって、情報端末143が生成したテキストデータがネットワーク142を介して収集され、個人記述テキストデータベース182に図6で示した個人記述テキストテーブル60の形式で蓄積される。個人プロファイル抽出ステップS152では、蓄積された個人記述テキストデータに対し、個人プロファイル抽出処理が実行され、生成したプロファイルが個人プロファイルデータベース181に図13で示した経験プロファイルテーブル130の形式で蓄積される。個人プロファイル抽出処理については前記第1実施形態の図2で説明したとおりである。図15のステップS151、S152によって、個人が作成した様々なテキストデータから、個人の経験を表すプロファイル(経験プロファイルテーブル130)を生成することが可能となる。
個人プロファイルを検索する処理は、図15の人物検索要求受信ステップS153、人物検索ステップS154、人物検索結果送信ステップS155の処理からなる。人物検索要求受信ステップS153では、送受信制御プログラム18によって、情報端末143から人物検索要求と検索キーワードを受信する。人物検索ステップS154では、人物検索プログラム17が個人プロファイルデータベース181に対して、受信した検索キーワードについて検索処理を実行する。人物検索は、例えば、「汎用連想検索エンジンの開発と大規模文書分析への応用」(高野明彦 他著、IPA2001年度成果報告会, 2001)等で知られる連想検索技術によって実現可能である。前記第1実施形態の図13に示した経験プロファイルテーブル130を、図16に示すような、記述者ID161を行、キーワード162を列、各記述者が持つキーワードの重みを値とする行列160に変換し、この行列160に対し、受信した検索キーワードで連想検索を行うことにより、該キーワードを経験プロファイルに持つ人物(記述者ID161)を検索することが可能である。経験プロファイルの行列は、図17に示すような、記述ID171と記述者ID172毎のキーワード173の行列170であってもよい。この場合、検索結果は記述ID171と記述者ID172のペアになる。連想検索処理では、検索結果の各人物(または記述)には、検索キーワードとの一致の高さを表すスコアが付与される。ステップS155では、送受信制御プログラム18によって、検索結果を情報端末143に送信する。
図18に、情報端末143の構成図を示す。情報端末143は、CPU1801、メモリ1802、通信装置183、入力装置184、出力装置185、検索要求生成部186、ユーザインタフェース部188からなる。情報端末143に表示される人物検索画面を図19に示す。図19は、「製品A、デモ」という2つのキーワードで人物検索を行った際の、人物検索画面190の一例である。情報端末143のユーザは、検索キーワード入力欄191にキーワードを入力し、検索ボタン192を押す。すると、ユーザインタフェース部188がユーザの入力を検索要求生成部186に渡し、検索要求生成部186が、ユーザが入力したキーワードによる検索要求を生成し、通信装置183によって検索要求が人物検索装置141に送信される。検索要求を受信した人物検索装置141は検索キーワードによって経験プロファイルテーブル130を検索し、経験者の検索結果(経験者検索結果テーブル210)を情報端末143に送信する。
経験者の検索結果のテーブルを図21に示す。図21において、人物検索装置141が生成する経験者検索結果テーブル210は、スコア211、氏名212、検索キーワード213から構成される。スコア211は検索キーワードによって図16に示した経験プロファイル行列160を検索した際のスコアである。氏名212は、検索結果の記述者IDに該当する人物の氏名である。人物検索装置141は、記述者IDと記述者氏名の対応テーブル(図示省略)を保持しており、記述者IDで対応テーブルを検索した値が氏名となる。経験キーワード213は、経験者の経験プロファイルを代表するキーワードである。経験プロファイルを代表するキーワードは、例えば、図16に示した経験プロファイル行列160において、値が高いものから上位任意個のキーワードと定められる。
情報端末143の通信装置183は人物検索装置141から検索結果(経験者検索結果テーブル210)を受信し、ユーザインタフェース部188が検索結果を人物検索画面の経験者一覧193に表示する。経験者は検索スコアの降順にソートして表示される。
図20に、人物検索画面のもう一つの例として、経験者一覧203とともに経験記述一覧204を表示する例を示す。検索キーワード入力欄201、検索ボタン202、経験者一覧203は、図19と同様である。情報端末143からのユーザの検索要求を受け、人物検索装置141は、図21の経験者検索結果(経験者検索結果テーブル210)と共に、図22に示す経験記述検索結果テーブル220を情報端末143に送信する。経験記述検索結果テーブル220は、図17に示す経験記述プロファイル行列170を検索キーワードで検索した際に出力される。図22に示す経験記述検索結果テーブル220において、スコア221は、検索キーワードによって経験記述プロファイル行列を検索した際のスコアである。記述222は、検索結果の記述IDに対応する記述である。記述者氏名223は、検索結果の記述者IDに該当する人物の氏名である。情報端末143の通信装置183は検索結果を受信し、ユーザインタフェース部188が検索結果を人物検索画面の経験者一覧203及び経験記述一覧204に表示する。経験者及び記述は検索スコアの降順にソートして表示される。
以上のように、本第2実施形態によれば、複数の情報端末143から収集したテキストデータから前記第1実施形態と同様に経験キーワードを抽出し、記述者のIDとともに経験プロファイルとして経験プロファイルテーブル130に格納しておき、情報端末143からの検索要求に基づいて、経験プロファイルテーブル130から経験キーワードを記述した経験者の検索を容易に行うことが可能となる。また、人物検索装置141では、人物の検索結果に検索キーワードとの一致の高さを表すスコアを付与するようにしたため、検索を行う情報端末143のユーザは、スコアに基づいて有意な情報を容易に取得することが可能となる。
以上のように、本発明は、テキスト情報と記述者の情報を収集、検索する人物検索装置や人物検索システムに適用することができ、さらに、テキスト情報と記述者の情報を収集して個人プロファイルを抽出する個人プロファイル抽出方法や個人プロファイル抽出装置、個人プロファイル抽出プログラムに適用することができる。
第1の実施形態を示し、人物検索装置の構成を示すブロック図。 第1の実施形態を示し、人物検索装置で行われる個人プロファイル抽出アルゴリズムのフローチャート 第1の実施形態を示し、図2のステップS22で行われる動作・動作主抽出処理のフローチャート。 第1の実施形態を示し、図2のステップS23で行われる経験記述判定処理のフローチャート。 第1の実施形態を示し、図2のステップS24で行われる経験プロファイル抽出処理のフローチャート。 第1の実施形態を示し、個人記述テキストテーブルの一例を示す説明図。 第1の実施形態を示し、個人記述文テーブルの一例を示す説明図。 第1の実施形態を示し、構文解析テーブルの一例を示す説明図。 第1の実施形態を示し、構文解析結果の係り受けを示す説明図。 第1の実施形態を示し、動作・動作主テーブルの一例を示す説明図。 第1の実施形態を示し、直前の動作記述の動作主を採用する場合の採用動作・動作主テーブルの一例を示す説明図。 第1の実施形態を示し、経験記述判定テーブルの一例を示す説明図。 第1の実施形態を示し、経験プロファイルテーブルの一例を示す説明図。 第2の実施形態を示し、人物検索システムの構成を示すブロック図。 第2の実施形態を示し、人物検索装置で行われる処理の一例を示すフローチャート。 第2の実施形態を示し、人物検索装置が生成する経験プロファイル行列の一例を示す説明図。 第2の実施形態を示し、人物検索装置が生成する経験記述プロファイル行列の一例を示す説明図。 第2の実施形態を示し、情報端末の構成を示すブロック図。 第2の実施形態を示し、情報端末の人物検索画面の画面イメージで、経験者検索を示す。 第2の実施形態を示し、情報端末の人物検索画面の画面イメージで、経験者と経験記述の検索を示す。 第2の実施形態を示し、経験者検索結果テーブルの一例を示す説明図。 第2の実施形態を示し、経験記述検索結果テーブルの一例を示す説明図。
符号の説明
1、141 人物検索装置
11 CPU
12 メモリ
13 通信装置
14 プログラム記憶装置
141 人物検索装置
142 ネットワーク
143 情報端末
15 個人プロファイル抽出プログラム
151 文分割プログラム
152 動作・動作主抽出プログラム
153 経験記述判定プログラム
154 経験プロファイル抽出プログラム
16 個人記述テキスト収集プログラム
17 人物検索プログラム
18 データ記憶装置
181 個人プロファイルデータベース
182 個人記述テキストデータベース

Claims (11)

  1. テキストデータを保持するデータ保持部と、前記データ保持部に保持された前記テキストデータから個人に関連する情報を抽出するデータ処理部を含む情報処理装置によって実行される個人プロファイル抽出方法であって、
    前記テキストデータと、当該テキストデータを記述した記述者の識別子を取得するステップと、
    前記テキストデータから動作と動作主のペアを抽出するステップと、
    前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定するステップと、
    前記判定結果が前記記述者の経験したことの記述である場合には、前記経験した内容を表すキーワードを前記テキストデータから抽出するステップと、
    を含むことを特徴とする個人プロファイル抽出方法。
  2. 前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定するステップは、
    前記動作主が一人称であり、かつ動作が過去に起こったことを表す場合に、経験したことの記述であると判定することを特徴とする請求項1に記載の個人プロファイル抽出方法。
  3. 前記抽出したキーワードに前記記述者の識別子を対応付けた情報を個人プロファイルとして保持するステップを、さらに含むことを特徴とする請求項1に記載の個人プロファイル抽出方法。
  4. テキストデータを保持するデータ保持部と、前記データ保持部に保持された前記テキストデータから個人に関連する情報を抽出して保持し、受け付けた検索要求に基づいて前記保持した情報を検索するデータ処理部と、を含む情報処理装置によって実行される人物検索方法であって、
    前記テキストデータと、当該テキストデータを記述した記述者の識別子を取得するステップと、
    前記テキストデータから動作と動作主のペアを抽出するステップと、
    前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定するステップと、
    前記判定結果が前記記述者の経験したことの記述である場合には、前記経験した内容を表すキーワードを前記テキストデータから抽出するステップと、
    前記抽出したキーワードに前記記述者の識別子を対応付けた情報を個人プロファイルとして保持するステップと、
    前記受け付けた検索要求に含まれるキーワードで前記個人プロファイルを検索し、前記記述者の識別子を取得するステップと、
    を含むことを特徴とする人物検索方法。
  5. 前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定するステップは、
    前記動作主が一人称であり、かつ動作が過去に起こったことを表す場合に、経験したことの記述であると判定することを特徴とする請求項4に記載の人物検索方法。
  6. テキストデータを保持するデータ保持部と、
    前記データ保持部に保持された前記テキストデータから個人に関連する情報を抽出するデータ処理部と、を備えた個人プロファイル抽出装置であって、
    前記データ処理部は、
    前記テキストデータと、当該テキストデータを記述した記述者の識別子を取得し、前記テキストデータから動作と動作主のペアを抽出する動作・動作主抽出部と、
    前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定し、前記判定結果が前記記述者の経験したことの記述である場合には、前記経験した内容を表すキーワードを前記テキストデータから抽出する経験プロファイル抽出部と、
    を備えたことを特徴とする個人プロファイル抽出装置。
  7. 前記経験プロファイル抽出部は、
    前記動作主が一人称であり、かつ動作が過去に起こったことを表す場合に、経験したことの記述であると判定することを特徴とする請求項6に記載の個人プロファイル抽出装置。
  8. 前記経験プロファイル抽出部は、
    前記抽出したキーワードに前記記述者の識別子を対応付けた情報を個人プロファイルとして保持することを特徴とする請求項6に記載の個人プロファイル抽出装置。
  9. テキストデータを保持するデータ保持部と、
    前記データ保持部に保持された前記テキストデータから個人に関連する情報を抽出して保持し、受け付けた検索要求に基づいて前記保持した情報を検索するデータ処理部と、を備えた人物検索装置であって、
    前記データ処理部は、
    前記テキストデータと、当該テキストデータを記述した記述者の識別子を取得し、前記テキストデータから動作と動作主のペアを抽出する動作・動作主抽出部と、
    前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定し、前記判定結果が前記記述者の経験したことの記述である場合には、前記経験した内容を表すキーワードを前記テキストデータから抽出し、前記抽出したキーワードに前記記述者の識別子を対応付けた情報を個人プロファイルとして保持する経験プロファイル抽出部と、
    前記受け付けた検索要求に含まれるキーワードで前記個人プロファイルを検索し、前記記述者の識別子を取得する検索部と、
    を備えたことを特徴とする人物検索装置。
  10. 前記経験プロファイル抽出部は、
    前記抽出したキーワードに前記記述者の識別子を対応付けた情報を個人プロファイルとして保持することを特徴とする請求項9に記載の人物検索装置。
  11. テキストデータを保持するデータ保持部と、前記データ保持部に保持された前記テキストデータから個人に関連する情報を抽出するデータ処理部を含む情報処理装置によって実行されるプログラムであって、
    前記テキストデータと、当該テキストデータを記述した記述者の識別子を取得する手順と、
    前記テキストデータから動作と動作主のペアを抽出する手順と、
    前記抽出した動作と動作主のペアが前記記述者の経験したことの記述であるか否かを判定する手順と、
    前記判定結果が前記記述者の経験したことの記述である場合には、前記経験した内容を表すキーワードを前記テキストデータから抽出する手順と、
    を前記情報処理装置に実行させることを特徴とするプログラム。
JP2008114211A 2008-04-24 2008-04-24 個人プロファイル抽出方法、人物検索方法及び装置 Pending JP2009265908A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008114211A JP2009265908A (ja) 2008-04-24 2008-04-24 個人プロファイル抽出方法、人物検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008114211A JP2009265908A (ja) 2008-04-24 2008-04-24 個人プロファイル抽出方法、人物検索方法及び装置

Publications (1)

Publication Number Publication Date
JP2009265908A true JP2009265908A (ja) 2009-11-12

Family

ID=41391695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008114211A Pending JP2009265908A (ja) 2008-04-24 2008-04-24 個人プロファイル抽出方法、人物検索方法及び装置

Country Status (1)

Country Link
JP (1) JP2009265908A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020161035A (ja) * 2019-03-28 2020-10-01 株式会社Phone Appli 人物検索装置,人物検索方法および人物検索プログラム
JP7452693B2 (ja) 2020-10-29 2024-03-19 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020161035A (ja) * 2019-03-28 2020-10-01 株式会社Phone Appli 人物検索装置,人物検索方法および人物検索プログラム
JP7452693B2 (ja) 2020-10-29 2024-03-19 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
Liu et al. Unsupervised paraphrasing by simulated annealing
WO2020042925A1 (zh) 人机对话方法、装置、电子设备及计算机可读介质
US9621601B2 (en) User collaboration for answer generation in question and answer system
US20160196336A1 (en) Cognitive Interactive Search Based on Personalized User Model and Context
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
JP6676109B2 (ja) 発話文生成装置とその方法とプログラム
US20160196313A1 (en) Personalized Question and Answer System Output Based on Personality Traits
JP2010129061A (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
US11687826B2 (en) Artificial intelligence (AI) based innovation data processing system
CN116077942B (zh) 一种交互式内容推荐的实现方法
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
Bhardwaj et al. Web scraping using summarization and named entity recognition (ner)
JP2007219947A (ja) 因果関係知識抽出装置及びプログラム
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
Amato et al. An application of semantic techniques for forensic analysis
Ammari et al. Semantically enriched machine learning approach to filter YouTube comments for socially augmented user models
JP4853915B2 (ja) 検索システム
JP2009265908A (ja) 個人プロファイル抽出方法、人物検索方法及び装置
Guo et al. Topic mining for call centers based on A‐LDA and distributed computing
CN113434789B (zh) 基于多维度文本特征的搜索排序方法及相关设备
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
JP2010282403A (ja) 文書検索方法