JP2000148773A - 嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体 - Google Patents

嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体

Info

Publication number
JP2000148773A
JP2000148773A JP10317850A JP31785098A JP2000148773A JP 2000148773 A JP2000148773 A JP 2000148773A JP 10317850 A JP10317850 A JP 10317850A JP 31785098 A JP31785098 A JP 31785098A JP 2000148773 A JP2000148773 A JP 2000148773A
Authority
JP
Japan
Prior art keywords
preference
document
information
degree
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10317850A
Other languages
English (en)
Inventor
Makoto Isaji
真 伊佐治
Hiroto Inagaki
博人 稲垣
Yoshiko Kumagai
佳子 熊谷
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10317850A priority Critical patent/JP2000148773A/ja
Publication of JP2000148773A publication Critical patent/JP2000148773A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 嗜好にあった情報をできるだけもれなく抽出
する。 【解決手段】 分野利用型嗜好適合度算出部103は、
嗜好分野情報101aと提供情報分野102aを利用し
て分野利用型嗜好適合度を求める。自然言語解析部10
4は、嗜好文書情報101bと提供情報文書102bを
自然言語解析して単語または句を取り出し、自然言語解
析結果蓄積部105に蓄積する。文書利用型嗜好適合度
算出部106は、嗜好文書101bを自然言語解析部1
04によって解析した結果と、提供情報文書102bを
自然言語解析部104によって解析した結果を利用し
て、文書利用型嗜好適合度を求める。嗜好適合度融合部
107は、分野利用型嗜好適合度算出部103による結
果と、文書情報利用型嗜好適合度算出部106による結
果を融合して融合嗜好適合度を求め、融合嗜好適合度蓄
積部108に蓄積する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は嗜好情報抽出方法お
よび装置に関する。
【0002】
【従来の技術】従来の嗜好情報抽出装置では、設定され
た分野から求められる嗜好情報を利用するか、任意の文
書によって求められる嗜好情報を利用するかのどちらか
が一般的である。
【0003】
【発明が解決しようとする課題】設定された分野を利用
する場合は、あらかじめ分野が区分されている区分に適
合した情報を必要とする時には嗜好にあった情報を取得
することができるが、分野でうまく区分されていない情
報を得ることは難しい。任意の文書によって嗜好情報を
求める場合には、区分の行いにくい情報を得ることはで
きるが、任意の文書の設定によっては、うまく嗜好を抽
出できない場合がある。
【0004】本発明の目的は、嗜好にあった情報をでき
るだけもれが少なく抽出する嗜好情報抽出方法、装置お
よび嗜好情報抽出プログラムを記録した記録媒体を提供
することにある。
【0005】
【課題を解決するための手段】本発明の嗜好情報抽出方
法は、設定された複数の分野から構成された分野情報の
中から嗜好に適合した分野が選択された嗜好分野と、嗜
好を記述した文書からなる嗜好文書と、文書によって記
述された提供情報文書が含まれる提供情報と、提供情報
に対して、分野情報から提供情報の内容に適合する分野
が選択された提供情報分野を用いる嗜好情報抽出方法で
あり、嗜好分野と提供情報分野を利用して、提供情報が
嗜好にどの程度適合しているかを表す分野利用型嗜好適
合度を求める分野利用型嗜好適合度算出段階と、嗜好文
書と提供情報に含まれる提供情報文書を自然言語解析し
て、嗜好に対する適合度を文書を利用して求める際に利
用するための自然言語情報を抽出する自然言語解析段階
と、嗜好文書の前記自然言語解析による結果と、提供情
報文書の前記自然言語解析による結果を利用して、提供
情報が嗜好にどの程度適合しているかを表す文書利用型
嗜好適合度を求める文書利用型嗜好適合度算出段階と、
分野利用型嗜好適合度算出段階において求められた分野
利用型嗜好適合度と文書利用型嗜好適合度算出段階にお
いて求められた文書利用型嗜好適合度を融合して融合嗜
好適合度とする嗜好適合度融合段階を有する。
【0006】また、本発明の嗜好情報抽出装置は、設定
された複数の分野から構成された分野情報の中から嗜好
に適合した分野が選択された嗜好分野と、嗜好を記述し
た文書からなる嗜好文書と、文書によって記述された提
供情報文書が含まれる提供情報と、提供情報に対して、
分野情報から提供情報の内容に適合する分野が選択され
た提供情報分野からなる提供情報文書を用いる嗜好情報
抽出装置であり、嗜好分野と提供情報分野を利用して、
提供情報が嗜好にどの程度適合しているかを表す分野利
用型嗜好適合度を求める分野利用型嗜好適合度算出手段
と、嗜好文書と前記提供情報に含まれる提供情報文書を
自然言語解析して、嗜好に対する適合度を文書を利用し
て求める際に利用するための自然言語情報を抽出する自
然言語解析手段と、嗜好文書の自然言語解析手段による
結果と、提供情報文書の自然言語解析手段による結果を
利用して、提供情報が嗜好にどの程度適合しているかを
表す文書利用型嗜好適合度を求める文書利用型嗜好適合
度算出手段と、分野利用型嗜好適合度算出手段によって
求められた分野利用型嗜好適合度と前記文書利用型嗜好
適合度算出手段によって求められた文書利用型嗜好適合
度を融合して融合嗜好適合度とする嗜好適合度融合手段
を有する。
【0007】設定された分野から選択された嗜好分野情
報と提供情報の分野情報によって求められる嗜好に対す
る適合の度合いと、任意の文書からなる嗜好文書情報と
提供情報に含まれる文書情報によって求められる嗜好に
対する適合の度合いを融合することによって、嗜好にあ
った情報をできるだけもれが少なくなるように抽出する
ことができる。
【0008】複数の前記提供情報に対する嗜好適合度融
合手段の結果を蓄積する融合嗜好適合度蓄積手段と、嗜
好適合度蓄積手段によって蓄積された融合嗜好適合度を
利用して融合嗜好適合度が上位である提供情報を選択す
る適合度上位情報選択手段を有することによって、複数
の提供情報から嗜好にあった情報のみを選択することが
できる。
【0009】自然言語解析手段として形態素解析を用い
ることができる。
【0010】自然言語解析手段として形態素解析に加え
て、係り受け解析を利用することができる。
【0011】自然言語解析手段として、形態素解析、係
り受け解析を行ったのち意味解析を行った結果を利用す
ることができる。
【0012】自然言語解析情報の中の、一つの単語また
は句に対して意味が同一または類似している単語または
句を類義語辞書または言い換え辞書を用いて検索する類
似表現検索手段を有することによって、文書情報利用型
嗜好適合度を求める際に、意味が同一または類似してい
る単語または句も利用することで適合の度合いをより正
確に求めることができる。
【0013】嗜好適合度融合手段が、分野利用型嗜好適
合度と文書利用型嗜好適合度を統一して取り扱うことが
できるように、分野利用型嗜好適合度を分野利用型嗜好
適合度変換値に変換し、文書利用型嗜好適合度を文書利
用型嗜好適合度変換値に変換する嗜好適合度変換手段を
有することによって、異なる方式で算出された嗜好適合
度を統一して取り扱うことが可能となる。
【0014】複数の提供情報文書に対する自然言語解析
手段による結果を蓄積する提供情報文書自然言語解析結
果蓄積手段を有することによって、あらかじめ蓄積され
た提供情報文書に対する自然言語解析結果を文書利用型
嗜好適合度の算出の際に用いることで、複数の提供情報
に対して効率よく文書利用型嗜好適合度を求めることが
できる。
【0015】提供情報から提供情報文書を抽出する提供
情報文書抽出手段を有することによって、様々な情報が
含まれている提供情報から自然言語解析に必要な提供情
報文書のみを抜き出すことができる。
【0016】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0017】図1を参照すると、本発明の一実施形態の
嗜好情報抽出装置は、嗜好文書101と提供情報文書1
02と分野利用型嗜好適合度算出部103と自然言語解
析部104と自然言語解析結果蓄積部105と文書利用
型嗜好適合度算出部106と嗜好適合度融合部107と
融合嗜好適合度蓄積部108と適合度上位情報選択部1
09で構成されている。
【0018】嗜好文書101は、設定された複数の分野
から選択された嗜好に適した分野である嗜好分野101
aと、嗜好を表現する嗜好文書101bから成る。提供
情報文書102は、提供情報102bと、分野情報から
選択された提供情報102bの内容に適合する分野であ
る提供情報分野102aから成る。ここで、設定された
分野は、テキストや画像、映像、音声によって表され
る。
【0019】分野利用型嗜好適合度算出部103は、嗜
好分野101aと提供情報分野102aを利用して分野
利用型嗜好適合度を求める。自然言語解析部104は、
嗜好文書情報101bと提供情報文書102bを自然言
語解析して単語または句を取り出し、自然言語解析結果
蓄積部105に蓄積する。文書利用型嗜好適合度算出部
106は、嗜好文書101bを自然言語解析部104に
よって解析した結果と、提供情報文書102bを自然言
語解析部104によって解析した結果を利用して、文書
利用型嗜好適合度を求める。嗜好適合度融合部107
は、分野利用型嗜好適合度算出部103による結果と、
文書利用型嗜好適合度算出部106による結果を融合し
て融合嗜好適合度を求め、融合嗜好適合度蓄積部108
に蓄積する。適合度上位情報選択部109は嗜好適合度
蓄積部108に蓄積された融合嗜好適合度を利用して融
合嗜好適合度が上位である提供情報を選択する。
【0020】図2は本実施形態の全体の処理の流れを示
すフローチャートである。提供情報に含まれる文書の自
然言語解析結果はあらかじめ蓄積されている。自然言語
解析部104は嗜好文書情報101bを自然言語解析し
て単語または句を検出し(ステップ201)、検出され
た単語または句に対して類似している単語または句を類
義語辞書またはいいかえ辞書を用いて検出する(ステッ
プ202)。分野利用型嗜好適合度算出部103は提供
情報102bを一つ選択し(ステップ203)、選択し
た提供情報の提供情報分野102aを利用して、分野利
用型嗜好適合度を求める(ステップ204)。文書利用
型嗜好適合度算出部106は選択した提供情報に含まれ
る提供情報文書の自然言語解析結果を利用して、文書情
報利用型嗜好適合度を求める(ステップ205)。嗜好
適合度融合部107は分野情報利用型嗜好適合度と文書
情報利用型嗜好適合度の形式を統一して、融合すること
によって融合嗜好適合度とし(ステップ206)、求め
られた融合嗜好適合度を融合嗜好適合度蓄積部108に
蓄積する(ステップ207)。全ての提供情報に対して
処理した後に、適合度上位情報選択部109は上位情報
を嗜好情報とする。
【0021】図3は自然言語解析部104の処理の一例
を示すフローチャートである。提供情報102bを選択
し(ステップ301)、提供情報に含まれる文書情報を
抽出して(ステップ302)、自然言語解析を行い(ス
テップ303)、自然言語解析結果を蓄積する(ステッ
プ304)。全ての提供情報102bに対して処理を行
う(ステップ305)。
【0022】次に、本実施形態の動作を具体例により説
明する。例えば、展示会場では、嗜好分野101aと嗜
好文書101bは展示会の参加者の嗜好を表す情報であ
り、嗜好分野101aはあらかじめ設定された展示会で
展示されている内容を区分した分野の中から嗜好に適し
た分野を選択したものである。提供情報は、展示ブース
の内容の説明となるテキスト、画像、映像、音声などに
よって構成される情報であり、提供情報文書102bは
提供情報からテキスト部分を抜き出したものである。提
供情報分野102aは、あらかじめ設定された展示会で
展示されている内容を区分した分野の中から展示ブース
の内容にあった分野を選択したものである。
【0023】分野利用型嗜好適合度算出部103では、
嗜好分野101aと提供情報分野102aを用いて、嗜
好分野101aにどの程度提供情報が適合しているかを
表す分野利用型嗜好適合度を算出する。
【0024】例えば、展示会場において参加者が嗜好に
あった展示ブースがどれなのかを把握したい場合、嗜好
情報は展示会における参加者の嗜好であり、提供する情
報はブースの内容を表す。展示会の内容に応じて分類さ
れた分野の例を表1に示す。
【0025】
【表1】 この分野の中から、以下に、参加者1の嗜好にあった分
野を選択した例を示す。この例では、嗜好にあった分野
には1が設定されており、嗜好にあってない分野には0
が設定される。また、参加者1の嗜好を表すベクトル
【0026】
【外1】 を設定する。
【0027】
【表2】 以下に、参加者2の嗜好にあった分野を選択した例を示
す。この例では、嗜好にあった分野に対して嗜好の度合
いに応じて数値が変化している。値が大きいほど嗜好の
度合いが強いことを表す。参加者2の嗜好を表すベクト
【0028】
【外2】 を設定する。
【0029】
【表3】 以下に、展示ブース1に適した分野を選択した例を示
す。この例では、提供情報にあった分野には1が設定さ
れており、それ以外の分野には0が設定されている。参
加者2の嗜好を表すベクトル
【0030】
【外3】 を設定する。
【0031】
【表4】 以下に、展示ブース2に適した分野を選択した例を示
す。この例では、提供情報にあった分野には1が設定さ
れており、それ以外の分野には0が設定されている。参
加者2の嗜好を表すベクトル
【0032】
【外4】 を設定する。
【0033】
【表5】 分野情報利用型嗜好適合度をベクトルのコサイン値とす
ると、参加者1に対するブース1の分野利用型嗜好適合
度は v1・u1/|v1||u1|=0.67であり、参加者1に
対するブース2の分野利用型嗜好適合度は v1・u2/|v
1||u2|=0.58であり、参加者2に対するブース1の
分野利用型嗜好適合度は v2・u1/|v2||u1|=0.70
であり、参加者2に対するブース2の分野利用型嗜好適
合度は v2・u2/|v2||u2|=0.80である。コサイン
値を用いた分野利用型嗜好適合度の値は0から1の範囲
であり、値が大きいほど嗜好に適合していることを表
す。
【0034】また、コサイン値ではなく、ベクトルの内
積を分野利用型嗜好適合度とすることもできる。この場
合、値が大きいほど嗜好に適合していることを表すが、
分野利用型嗜好適合度の存在範囲は定まらない。また、
ベクトル間の距離を分野利用型嗜好適合度とすることも
できる。この場合、値が小さいほど嗜好に適しているこ
とを表すが、分野利用型嗜好適合度の存在範囲は定まら
ない。
【0035】自然言語解析部104では、嗜好文書10
1bと提供情報文書102bを自然言語解析して、嗜好
の適合度を計算するための自然言語情報を抽出する。自
然言語解析部104として形態素解析を用いた場合、自
然言語情報としては、単語または句の品詞情報などであ
る。
【0036】形態素解析とは、入力された文字列を単語
辞書に対して検索を行い、品詞情報(品詞)、文頭可否
情報(文頭可)、前方接続情報(前接)、後方接続情報
(後接)などの情報を取得する。通常の単語辞書では、
TREI辞書構造という特別な辞書構造を行うことによ
り高速な検索を行えるようになっている。辞書項目とし
て、“ああ”、“あいさつ”、“あい”、などがある場
合、それぞれの第一文字(ここでは、日本語であるの
で、C言語の文字である、アルファベットと異なり、日
本語文字2バイトを指し示す)が同じもの、第二文字目
が同じものなど、それぞれ順次に、木構造的に構成され
る。そして、最後の文字まで一致した場合には、その単
語辞書項目に対する品詞情報(品詞)、文頭可否情報
(文頭可)、前方接続情報(前接)、後方接続情報(後
接)などの情報が記述される。
【0037】文頭可否情報とは、文頭にあってよいかど
うかを示すフラグである。文頭可であれば、文頭に存在
してもよいが、文頭否であれば、文頭にあることが許可
されない単語ということになる。前方接続情報とは、前
の単語の品詞または属性が適正な場合だけ接続が許可さ
れ、前接で接続が許可されない単語の場合、候補として
削除される。同様に、後方接続情報も、後の単語の品詞
または属性が適正な場合だけ接続が許可され、後接で接
続が許可されない単語の場合、候補として削除される。
【0038】このような品詞接続により、候補を選択す
る。最尤候補は、最小コスト法とよぶ方法により選択す
る。最小コスト法とは、最もコストが最小となる形態素
候補を最尤候補とする処理方式である。形態素解析にお
いて利用されるコストには接続コストと単語コストの2
種類のコストがある。接続コストは、ある単語と単語を
接続する場合に必要なコストである。単語と単語である
ため、単語+該活用に対する接続コストは0となる。単
語コストとは、その単語に関するコストであり、例え
ば、使用頻度が高い単語は、コストが低くなる。また、
活用は単語ではないので、コストは0となる。形態素解
析により、テキスト部が単語単位に分解されると同時
に、各単語に最も正しいと考えられる品詞が付与され
る。
【0039】図4(a)、(b)に解析の例を示す。入
力が、“あいすることは”といる文があった場合、
“あ”という単語と“い”という単語、“する”という
単語、“こと”という単語、“は”という単語で構成さ
れるという解析を最初の候補は行っている。一方、2番
目の候補は、“あい(する)”、“こと”、“は”の3
単語から構成されている。それぞれの候補のコストを計
算すると、最初の候補が97点、2番目の候補が37点
ということになり、2番目の候補が最小コストの候補
(最尤候補)ということになる。
【0040】このように、形態素解析を行う際に、複数
の候補があり得る場合は、最小コスト法によって、最も
コストが低い候補を形態素解析結果とする。嗜好文書に
対する形態素解析結果と提供文書に対する形態素解析結
果とで、一致する単語または句を用いて文書利用型嗜好
適合度を求める。
【0041】自然言語解析部104として係り受け解析
を用いた場合、まず、入力された文書を形態素解析し、
該形態素解析情報を用いて係り受け解析を行う。自然言
語情報としては、単語または、句の間の係り受け関係の
情報などである。係り受け解析としては、稲垣らが発明
した「係り受け解析方法」(特願昭62−173011
号)を用いてもよい。
【0042】自然言語解析部104として意味解析を用
いた場合、まず、入力された文書を形態素解析し、さら
に係り受け解析を行う。さらに、係り受け解析情報をも
とに、該入力された文書の各文または、段落等の文集合
に記述されている意味情報を解析する。意味情報として
は、各文または、段落等に記述されている意味内容の中
で、意味内容における主体(“誰が”に当たる部分)、
客体(“誰に対して”に当たる部分)や述部(“どうし
た”に当たる部分)、時間(“いつ”に当たる部分)、
場所(“どこで”に当たる部分)などの自然言語意味情
報を抽出する。意味解析としては、稲垣らが発明した
「事象解析器」(特願平3−261306号)を用いて
もよい。
【0043】以下では、まず、自然言語解析部104と
して形態素解析を用いた例を説明する。例えば、展示会
場において参加者が嗜好にあった展示ブースがどれなの
かを把握したい場合に参加者の嗜好を表す嗜好文書10
1bとして「ABC社の軽いモバイル端末」と表現され
ているとき、「ABC」と「モバイル」と「軽い」、
「端末」が参加者の嗜好を表す単語または句である。例
えば、ブース1の提供情報に含まれる説明文が図5のよ
うに表される時、自然言語解析部104(ここでは特
に、形態素解析)によって自然言語情報が抽出される。
ここでは、自然言語解析部104としては、形態素解析
を用いているので、形態素解析によって各文書から単語
または句が図6のように抽出される。嗜好文書から抽出
された単語または句と一致している場合には下線で示
す。
【0044】文書利用型嗜好適合度算出部106は、嗜
好文書101bの自然言語解析結果と提供情報文書10
2bの自然言語解析結果を利用して、参加者の嗜好に対
して提供情報がどの程度適合しているかを表す文書利用
型嗜好適合度を求める。
【0045】参加者の嗜好文書から抽出される単語また
は句がブース1の説明文中含まれる数は表6のようにな
り、合計6つである。
【0046】
【表6】 ここで、類義語辞書またはいいかえ辞書で、「モバイ
ル」と意味が同じ単語が「Mobile」と「携帯」と
されており、「軽い」と意味が同じ単語が「軽量」であ
るとされている時、参加者の嗜好文書から抽出される単
語または句と同じ意味の単語または句を図7のように下
線で示す。
【0047】参加者の嗜好文書から抽出される単語また
は句がブース1の説明文中含まれる数は表7のようにな
り、合計11である。
【0048】
【表7】 文書利用型嗜好適合度を検出された単語または句の数で
表す場合、数が大きいほど適合の度合いが高くなる。類
義語辞書またはいいかえ辞書を使わない場合には、文書
利用型嗜好適合度は6であるが、使用した場合には文書
利用型嗜好適合度は11である。
【0049】次に、自然言語解析部104として係り受
け解析を用いた例を説明する。
【0050】例えば、先のブース1の提供情報に含まれ
る説明文(図5)から、図8のような係り受け解析情報
が抽出される。
【0051】一方、参加者の嗜好として入力された情報
「ABC社の軽いモバイル端末」は、図9のような係り
受け関係が抽出される。このとき、参加者が入力した嗜
好の文書と、展示者側が説明として提供した説明文との
間で、ただ単に、各文書間の単語が一致しているだけで
なく、さらに係り受け関係が類似している場合は、適合
の度合いをアップする。例えば、上記例では、“AB
C”<−>“端末”の係り受け関係が両方で存在するの
で、単語の一致度に加え、係り受けの一致度を加える。
ここでは、係り受けの一致度を通常の単語の例えば5倍
と設定する。
【0052】参加者の嗜好文書から抽出された単語また
は句がブース1の説明文中含まれる数は表8のようにな
り、合計6+5=11となる。
【0053】
【表8】 となる。
【0054】次に、自然言語解析部104として意味解
析を用いた例を説明する。例えば、ブースCの提供情報
に含まれる説明文として、図10のような説明文が用意
されているとすると、図11のような係り受け関係が抽
出される。
【0055】一方、参加者の嗜好として入力された情報
「10時ごろにあるモバイル端末の紹介」からは、図1
2のような係り受け関係が抽出される。このとき、参加
者が入力した嗜好の文書と、展示者側が説明として提供
した説明文との間で、ただ単に、各文書間の単語が一致
しているだけでなく、さらに意味関係が類似している場
合は、適合の度合いをアップする。例えば、上記例で
は、意味解析結果S−2と意味解析結果R−1の間で
は、客体:“端末”、述部:“紹介”、時間:“10
時”の3つの意味関係が両方で存在するので、単語の一
致度に加え、意味解析結果の一致度を加える。ここで
は、意味解析結果の一致度を、1個(ここでは、1個と
は、主体、客体、述部、時間、場所等のそれぞれの項目
の1つを意味する。)が一致していれば、通常の単語の
一致度の1倍、意味解析結果の一致度を、2個が一致し
ていれば、通常の単語の一致度の10倍、意味解析結果
の一致度を、3個が一致していれば、通常の単語の一致
度の100倍と、意味解析結果の一致度をn個が一致し
ていれば、通常の単語の一致度の10(n−1)倍、と
例えば設定する。
【0056】参加者の嗜好文書から抽出される単語また
は句がブース1の説明文中含まれる一致度は表9のよう
になり、合計1+100=101となる。
【0057】
【表9】 表10に本発明における嗜好情報融合の一例を示す。展
示会場における参加者の嗜好に対するブース1からブー
ス5の提供情報を用いて融合嗜好適合度が求められてい
る。参加者の嗜好分野を利用した分野利用型嗜好適合度
はコサイン値を用いているため、0から1の範囲内に収
まっている。参加者の嗜好文書を利用した文書利用型嗜
好適合度は、検出された単語または句の数で表されてい
るため上限がない。分野利用型嗜好適合度と文書利用型
嗜好適合度を融合するために、統一した形式である分野
利用型嗜好適合度変換値と文書利用型嗜好適合度変換値
に変換する。変換前の値と変換後の値は同一であっても
よい。分野利用型嗜好適合度と分野利用型嗜好適合度変
換値は同一である。文書利用型嗜好適合度に対して上限
値(15)を設定し、上限値によって文書利用型嗜好適
合度を割ることによって正規化された値が文書利用型嗜
好適合度変換値である。文書利用型嗜好適合度が上限値
以上の場合には、文書利用型嗜好適合度変換値は1とな
る。文書利用型嗜好適合度変換値は0から1の範囲内で
あるため、分野利用型嗜好適合度変換値と形式が一致す
る。分野利用型嗜好適合度変換値と文書利用型嗜好適合
度変換値の大きい方を融合嗜好適合度とする。
【0058】
【表10】 表11に本発明における嗜好情報融合の一例を示す。分
野利用型嗜好適合度変換値と文書利用型嗜好適合度変換
値の平均値を融合嗜好適合度とする。
【0059】
【表11】 図11を参照すると、本発明の他の実施形態の嗜好情報
抽出装置は入力装置401と記憶装置402〜406と
出力装置407と記録媒体408とデータ処理装置40
9で構成されている。
【0060】入力装置401は嗜好文書101、提供情
報文書102を入力するためのものである。記憶装置4
02、403はそれぞれ入力された嗜好文書101、提
供情報102を記憶するためのものであり、記憶装置4
04、405はそれぞれ自然言語解析結果蓄積部10
5、融合嗜好適合度蓄積部108に相当し、記憶装置4
06はハードディスクである。出力装置407は求めら
れた融合嗜好適合度を出力するためのものである。記録
媒体408は分野利用型嗜好適合度算出部103、自然
言語解析部104、文書利用型嗜好適合度算出部10
6、嗜好適合度融合部107、適合度上位情報選択部1
09の各部の処理からなる嗜好情報抽出プログラムが記
録された、フロッピィ・ディスク(登録商標)、CD−
ROM、光磁気ディスク等の記録媒体である。データ処
理装置409は記録媒体408から嗜好情報抽出プログ
ラムを記憶装置406に読みこんで、これを実行するC
PUである。
【0061】
【発明の効果】以上説明したように、本発明は、以下の
ような効果がある。 (1)設定された分野から選択された嗜好分野情報と提
供情報の分野情報によって求められる嗜好に対する適合
の度合いと、任意の文書からなる嗜好文書情報と提供情
報に含まれる文書情報によって求められる嗜好に対する
適合の度合いを融合することによって、嗜好にあった情
報をできるだけもれが少なくなるように抽出することが
できる。 (2)情報提供に用いられる提供情報に含まれる文書情
報を嗜好に対する適合の度合いに利用することで有効に
活用する。
【図面の簡単な説明】
【図1】本発明の一実施形態の嗜好情報抽出装置の構成
図である。
【図2】図1の嗜好情報抽出装置の処理の流れを示すフ
ローチャートである。
【図3】図1の自然言語解析部104の処理の流れを示
すフローチャートである。
【図4】最小コスト法による形態素解析の例を示す図で
ある。
【図5】ブース1の提供情報に含まれる説明文を示す図
である。
【図6】形態素解析によって図5の文書から抽出された
単語または句を示す図である。
【図7】形態素解析によって図5の文書から抽出された
単語または句を示す図である。
【図8】図5の説明文から抽出された係り受け解析情報
を示す図である。
【図9】情報「ABC社の軽いモバイル端末」から抽出
された係り受け関係を示す図である。
【図10】ブースCの提供情報に含まれている説明文を
示す図である。
【図11】図8の説明文から抽出された係り受け関係を
示す図である。
【図12】「10時ごろにあるモバイル端末の紹介」か
ら抽出された係り受け関係を示す図である。
【図13】本発明の他の実施形態の嗜好情報抽出装置の
ブロック図である。
【符号の説明】
101 嗜好文書 101a 嗜好分野 101b 嗜好文書情報 102 提供情報文書 102a 提供情報分野 102b 提供情報 103 分野利用型嗜好適合度算出部 104 自然言語解析部 105 自然言語解析結果蓄積部 106 文書利用型嗜好適合度算出部 107 嗜好適合度融合部 108 融合嗜好適合度蓄積部 109 適合度上位情報選択部 201〜209、301〜305 ステップ 401 入力装置 402〜406 記憶装置 407 出力装置 408 記録媒体 409 データ処理装置
フロントページの続き (72)発明者 熊谷 佳子 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND02 NK06 PP14 PP28 PQ36 PQ74 PR06 QM08 QP03

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 設定された複数の分野から構成された分
    野情報の中から嗜好に適合した分野が選択された嗜好分
    野と、嗜好を記述した文書からなる嗜好文書と、文書に
    よって記述された提供情報文書が含まれる提供情報と、
    前記提供情報に対して、前記分野情報から前記提供情報
    の内容に適合する分野が選択された提供情報分野を用い
    て嗜好にあった情報を抽出するための嗜好情報抽出方法
    であって、 前記嗜好分野と前記提供情報分野を利用して、提供情報
    が嗜好にどの程度適合しているかを表す分野利用型嗜好
    適合度を求める分野利用型嗜好適合度算出段階と、 前記嗜好文書と前記提供情報に含まれる前記提供情報文
    書を自然言語解析して、嗜好に対する適合度を文書を利
    用して求める際に利用するための自然言語情報を抽出す
    る自然言語解析段階と、 前記嗜好文書の前記自然言語解析による結果と、前記提
    供情報文書の前記自然言語解析による結果を利用して、
    提供情報が嗜好にどの程度適合しているかを表す文書利
    用型嗜好適合度を求める文書利用型嗜好適合度算出段階
    と、 前記分野利用型嗜好適合度算出段階において求められた
    前記分野利用型嗜好適合度と前記文書利用型嗜好適合度
    算出段階において求められた前記文書利用型嗜好適合度
    を融合して融合嗜好適合度とする嗜好適合度融合段階を
    有する嗜好情報抽出方法。
  2. 【請求項2】 複数の前記提供情報に対する前記嗜好適
    合度融合段階の結果を蓄積する融合嗜好適合度蓄積段階
    と、前記嗜好適合度蓄積段階によって蓄積された前記融
    合嗜好適合度を利用して融合嗜好適合度が上位である提
    供情報を選択する適合度上位情報選択段階をさらに有す
    る請求項1に記載の嗜好情報抽出方法。
  3. 【請求項3】 前記自然言語解析段階において、自然言
    語解析として形態素解析を利用する請求項1または2に
    記載の嗜好情報抽出方法。
  4. 【請求項4】 前記自然言語解析段階において、自然言
    語解析として形態素解析と係り受け解析を利用する請求
    項1または2に記載の嗜好情報抽出方法。
  5. 【請求項5】 前記自然言語解析段階において、自然言
    語解析として、形態素解析、係り受け解析を行ったのち
    意味解析を行った結果を利用する請求項1または2に記
    載の嗜好情報抽出方法。
  6. 【請求項6】 自然言語解析情報の中の、一つの単語ま
    たは句に対して意味が同一または類似している単語また
    は句を類義語辞書または言い換え辞書を用いて検索する
    類似表現検索段階をさらに有する請求項1から5のいず
    れか1項に記載の嗜好情報抽出方法。
  7. 【請求項7】 前記嗜好適合度融合段階は、前記分野利
    用型嗜好適合度と前記文書利用型嗜好適合度を統一して
    取り扱うことができるように、前記分野利用型嗜好適合
    度を分野利用型嗜好適合度変換値に変換し、前記文書利
    用型嗜好適合度を文書利用型嗜好適合度変換値に変換す
    る嗜好適合度変換段階を有する請求項1から6のいずれ
    か1項に記載の嗜好情報抽出方法。
  8. 【請求項8】 複数の前記提供情報文書に対する前記自
    然言語解析結果を蓄積する提供情報文書自然言語解析結
    果蓄積段階をさらに有する請求項1から7のいずれか1
    項に記載の嗜好情報抽出方法。
  9. 【請求項9】 前記提供情報から提供情報文書を抽出す
    る提供情報文書抽出段階をさらに有する請求項1から8
    のいずれか1項に記載の嗜好情報抽出方法。
  10. 【請求項10】 設定された複数の分野から構成された
    分野情報の中から嗜好に適合した分野が選択された嗜好
    分野と、嗜好を記述した文書からなる嗜好文書と、文書
    によって記述された提供情報文書が含まれる提供情報
    と、前記提供情報に対して、前記分野情報から前記提供
    情報の内容に適合する分野が選択された提供情報分野を
    用いて、嗜好にあった情報を抽出するための嗜好情報抽
    出装置であって、 前記嗜好分野と前記提供情報分野を利用して、提供情報
    が嗜好にどの程度適合しているかを表す分野利用型嗜好
    適合度を求める分野利用型嗜好適合度算出手段と、 前記嗜好文書と前記提供情報に含まれる前記提供情報文
    書を自然言語解析して、嗜好に対する適合度を文書を利
    用して求める際に利用するための自然言語情報を抽出す
    る自然言語解析手段と、 前記嗜好文書の前記自然言語解析手段による結果と、前
    記提供情報文書の前記自然言語解析手段による結果を利
    用して、提供情報が嗜好にどの程度適合しているかを表
    す文書利用型嗜好適合度を求める文書利用型嗜好適合度
    算出手段と、 前記分野利用型嗜好適合度算出手段によって求められた
    前記分野利用型嗜好適合度と前記文書利用型嗜好適合度
    算出手段によって求められた前記文書利用型嗜好適合度
    を融合して融合嗜好適合度とする嗜好適合度融合手段を
    有する嗜好情報抽出装置。
  11. 【請求項11】 複数の前記提供情報に対する前記嗜好
    適合度融合手段の結果を蓄積する融合嗜好適合度蓄積手
    段と、前記嗜好適合度蓄積手段によって蓄積された前記
    融合嗜好適合度を利用して融合嗜好適合度が上位である
    提供情報を選択する適合度上位情報選択手段をさらに有
    する請求項10に記載の嗜好情報抽出装置。
  12. 【請求項12】 前記自然言語解析手段として形態素解
    析を利用する請求項10または11に記載の嗜好情報抽
    出装置。
  13. 【請求項13】 前記自然言語解析手段として、形態素
    解析と係り受け解析を利用する請求項10または11に
    記載の嗜好情報抽出装置。
  14. 【請求項14】 前記自然言語解析手段として、形態素
    解析、係り受け解析を行ったのち意味解析を行った結果
    を利用する請求項10または11に記載の嗜好情報抽出
    装置。
  15. 【請求項15】 自然言語解析情報の中の、一つの単語
    または句に対して意味が同一または類似している単語ま
    たは句を類義語辞書または言い換え辞書を用いて検索す
    る類似表現検索手段をさらに有する請求項10から14
    のいずれか1項に記載の嗜好情報抽出装置。
  16. 【請求項16】 前記嗜好適合度融合手段は、前記分野
    利用型嗜好適合度を分野利用型嗜好適合度変換値に変換
    し、前記文書利用型嗜好適合度を文書利用型嗜好適合度
    変換値に変換する嗜好適合度変換段階を有する請求項1
    1から15のいずれか1項に記載の嗜好情報抽出装置。
  17. 【請求項17】 複数の前記提供情報文書に対する前記
    自然言語解析手段による結果を蓄積する提供情報文書自
    然言語解析結果蓄積手段をさらに有する請求項11から
    16のいずれか1項に記載の嗜好情報抽出装置。
  18. 【請求項18】 前記提供情報から提供情報文書を抽出
    する提供情報文書抽出手段をさらに有する請求項11か
    ら17のいずれか1項に記載の嗜好情報抽出装置。
  19. 【請求項19】 設定された複数の分野から構成された
    分野情報の中から嗜好に適合した分野が選択された嗜好
    分野と、嗜好を記述した文書からなる嗜好文書と、文書
    によって記述された提供情報文書が含まれる提供情報
    と、前記提供情報に対して、前記分野情報から前記提供
    情報の内容に適合する分野が選択された提供情報分野を
    用いて嗜好にあった情報を抽出するための嗜好情報抽出
    プログラムであって、 前記嗜好分野と前記提供情報分野を利用して、提供情報
    が嗜好にどの程度適合しているかを表す分野利用型嗜好
    適合度を求める分野利用型嗜好適合度算出処理と、 前記嗜好文書と前記提供情報に含まれる前記提供情報文
    書を自然言語解析して、嗜好に対する適合度を文書を利
    用して求める際に利用するための自然言語情報を抽出す
    る自然言語解析処理と、 前記嗜好文書の前記自然言語解析による結果と、前記提
    供情報文書の前記自然言語解析による結果を利用して、
    提供情報が嗜好にどの程度適合しているかを表す文書利
    用型嗜好適合度を求める文書利用型嗜好適合度算出処理
    と、 前記分野利用型嗜好適合度算出処理において求められた
    前記分野利用型嗜好適合度と前記文書利用型嗜好適合度
    算出処理において求められた前記文書利用型嗜好適合度
    を融合して融合嗜好適合度とする嗜好適合度融合処理を
    コンピュータに実行させるための嗜好情報抽出プログラ
    ムを記録した記録媒体。
  20. 【請求項20】 複数の前記提供情報に対する前記嗜好
    適合度融合処理の結果を蓄積する融合嗜好適合度蓄積処
    理と、前記嗜好適合度蓄積処理によって蓄積された前記
    融合嗜好適合度を利用して融合嗜好適合度が上位である
    提供情報を選択する適合度上位情報選択処理をさらに有
    する請求項19に記載の記録媒体。
  21. 【請求項21】 前記自然言語解析処理において、自然
    言語解析として形態素解析を利用する請求項19または
    20に記載の記録媒体。
  22. 【請求項22】 前記自然言語解析処理において、自然
    言語解析として形態素解析と係り受け解析を利用する請
    求項19または20に記載の記録媒体。
  23. 【請求項23】 前記自然言語解析処理において、自然
    言語解析として、形態素解析、係り受け解析を行ったの
    ち意味解析を行った結果を利用する請求項19または2
    0に記載の記録媒体。
  24. 【請求項24】 前記自然言語解析情報の中の、一つの
    単語または句に対して意味が同一または類似している単
    語または句を類義語辞書または言い換え辞書を用いて検
    索する類似表現検索処理をさらに有する請求項19から
    23のいずれか1項に記載の記録媒体。
  25. 【請求項25】 前記嗜好適合度融合処理は、前記分野
    利用型嗜好適合度と前記文書利用型嗜好適合度を統一し
    て取り扱うことができるように、前記分野利用型嗜好適
    合度を分野利用型嗜好適合度変換値に変換し、前記文書
    利用型嗜好適合度を文書利用型嗜好適合度変換値に変換
    する嗜好適合度変換処理を有する請求項19から24の
    いずれか1項に記載の記録媒体。
  26. 【請求項26】 複数の前記提供情報文書に対する前記
    自然言語解析処理による結果を蓄積する提供情報文書自
    然言語解析結果蓄積処理をさらに有する請求項19から
    25のいずれか1項記載の記録媒体。
  27. 【請求項27】 前記提供情報から提供情報文書を抽出
    する提供情報文書抽出処理をさらに有する請求項19か
    ら26のいずれか1項に記載の記録媒体。
JP10317850A 1998-11-09 1998-11-09 嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体 Pending JP2000148773A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10317850A JP2000148773A (ja) 1998-11-09 1998-11-09 嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10317850A JP2000148773A (ja) 1998-11-09 1998-11-09 嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000148773A true JP2000148773A (ja) 2000-05-30

Family

ID=18092761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10317850A Pending JP2000148773A (ja) 1998-11-09 1998-11-09 嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000148773A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182483A (ja) * 2016-03-30 2017-10-05 株式会社Personal AI 個人や個人の所属する組織・グループの価値観・価値を理解蓄積、推測予測し、価値に基づく支援や分析実現を支援する人工知能装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182483A (ja) * 2016-03-30 2017-10-05 株式会社Personal AI 個人や個人の所属する組織・グループの価値観・価値を理解蓄積、推測予測し、価値に基づく支援や分析実現を支援する人工知能装置
WO2017170454A1 (ja) * 2016-03-30 2017-10-05 株式会社Personal AI 個人や個人の所属する組織・グループの価値観・価値を理解蓄積、推測予測し、価値に基づく支援や分析実現を支援する人工知能装置

Similar Documents

Publication Publication Date Title
US10565313B2 (en) Automatic semantic rating and abstraction of literature
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7475007B2 (en) Expression extraction device, expression extraction method, and recording medium
US7269544B2 (en) System and method for identifying special word usage in a document
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US20060089924A1 (en) Document categorisation system
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US7328193B2 (en) Summary evaluation apparatus and method, and computer-readable recording medium in which summary evaluation program is recorded
JP2000020524A (ja) 対訳文検索装置
JP2001075966A (ja) データ分析システム
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及系统
CN112699645B (zh) 语料标注方法、装置及设备
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
Gunawan et al. Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia
KR102351745B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법
AlMousa et al. Nlp-enriched automatic video segmentation
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
JP3794597B2 (ja) 話題抽出方法及び話題抽出プログラム記録媒体
JP2000148773A (ja) 嗜好情報抽出方法、嗜好情報抽出装置および嗜好情報抽出プログラムを記録した記録媒体
CN112597295A (zh) 摘要提取方法、装置、计算机设备和存储介质
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
CN111209752A (zh) 一种基于辅助信息的中文抽取性集成无监督摘要的方法
JP2003167891A (ja) 単語重要度算出方法、装置、プログラム、および記録媒体
JP2002189754A (ja) 文書検索装置及び文書検索方法