JP5292427B2 - 特徴量算出装置、特徴量算出方法およびプログラム - Google Patents
特徴量算出装置、特徴量算出方法およびプログラム Download PDFInfo
- Publication number
- JP5292427B2 JP5292427B2 JP2011057025A JP2011057025A JP5292427B2 JP 5292427 B2 JP5292427 B2 JP 5292427B2 JP 2011057025 A JP2011057025 A JP 2011057025A JP 2011057025 A JP2011057025 A JP 2011057025A JP 5292427 B2 JP5292427 B2 JP 5292427B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- word
- words
- document
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書dxのTx、文書dyのTyを用いて、下記式(3)により求めることができる。
即ち、外部の文書に基づいて単語間の類似度を観点に応じて設定したものや、外部の文書において新たに出現した単語を含めた単語間の類似度を計算し直したものを、外部の文書の単語が反映された単語間類似度情報とすることができるため、特徴量ベクトル算出部が、外部の文書の単語が反映された単語間類似度情報を参照して文書の特徴量ベクトルを算出した場合には、観点に応じて単語間の類似度、及び、新たな単語を含めた単語間の類似度が反映され、適切な文書の特徴量を算出することができる。
また、ユーザが恣意的に単語間の類似度を観点に応じて設定したものや、ユーザが恣意的に新たな単語とした単語を含めた単語間の類似度を計算し直したものを、ユーザによって設定された単語が反映された単語間類似度情報とすることができるため、特徴量ベクトル算出部が、ユーザによって設定された単語が反映された単語間類似度情報を参照して文書の特徴量ベクトルを算出した場合には、観点に応じて単語間の類似度、及び、新たな単語を含めた単語間の類似度が反映され、適切な文書の特徴量を算出することができる。
そして、上述の如く、文書の特徴量を適切に算出することができるため、当該文書の特徴量を用いて、文書間の類似度を適切に算出することができるようになる。
なお、単語間類似度情報記憶部194に記憶されている単語間類似度情報は、上述の如く、観点に応じて単語間の類似度、及び、新たな単語を含めた単語間の類似度が反映されているため、特徴量ベクトル算出部130が算出する特徴量ベクトルには、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度が勘案されている。
(ア)0≦w(i,j)≦1
(イ)w(i,i)=1
なお、w(i,j)=0のときは、単語wiと単語wjとが全く異なることを意味し、w(i,j)=1のときは、単語wiと単語wjが同義であることを意味する。また、w(i,j)=w(j,i)である必要はない。
第1の手法として、第1の単語と第2の単語の組(即ち、所定の単語の組)における予め定められた単語間の類似度が類似度a、第2の単語と第3の単語の組(即ち、所定の単語の組)における予め定められた単語間の類似度が類似度bであるときに、単語間類似度算出部120は、類似度aと類似度bとを乗算した乗算値を第1の単語と第3の単語の組(即ち、所定の単語の組以外の組)における単語間の類似度として算出する。第1の手法は、開発ドキュメントなど特定のドメインの類似度を算出したいときに有用である。
(a)単語をノードとし、類義語を選択し、類似語間をエッジで結んだグラフを作成する。
(b)エッジに重み(即ち、単語間の類似度)を定義(設定)する。
図3(a)は、上述のようにして生成されたシソーラス192の概念図である。
また、図3(b)に示す各単語間の類似度(即ち、単語間類似度情報記憶部194に記憶される単語間類似度情報)は、単語間の類似度を利用者が恣意的に設定できるシソーラス192(図3(a))に基づいて、単語間類似度算出部120が算出するものであるため、シソーラス192(図3(a))に新たな単語を反映さるとともに、観点(例えば、ビジネス的な観点、技術的な観点)を反映させれば、当然に、図3(b)に示す各単語間の類似度(即ち、単語間類似度情報記憶部194に記憶される単語間類似度情報)に、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度が反映させることができる。
第2の手法として、単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数c(0<c<1)と設定したときに、一の下位の単語の上位の単語の単語数がN個(Nは1以上の整数)であった場合、単語間類似度算出部120は、類似度係数cを単語数Nで除した除算値を上記一の下位の単語と、上記N個の中の一の上位の単語の類似度として算出する。
(a)単語とその上位語の組を有向グラフとして作る。なお、1単語につき上位語は複数あってもよい。また、上位語は単語ではなく概念であってもよい。
(b)上位語と下位語の間に重み(即ち、単語間の類似度)を定義(設定)する。
(ア)最上位のカテゴリを幾つか選択し(例えば、科学、学問、技術、自然)、処理すべきカテゴリリストに追加する。当該カテゴリの選択は、ユーザからの指定に応じて、実行する。なお、ユーザは、例えば、技術的な観点で類似度を算出したいときは、カテゴリ「技術」を指定する。
(イ)処理すべきカテゴリリストから1つ取り出し上位カテゴリとする。上位カテゴリに含まれる見出語、及び、カテゴリ(下位カテゴリ)を上位カテゴリと結びつける。
(ウ)上位カテゴリを処理済みリストに入れる。
(エ)下位カテゴリのうち処理済みリストに入っていないものは処理すべきカテゴリリストに追加する。
(オ)処理すべきカテゴリリストがなくなるまで(イ)〜(エ)を繰り返す。
(カ)他の見出語にリダイレクトされる見出語は、リダイレクト先の見出語が属するカテゴリと結びつける。
(キ)ユーザからの指示に応じて、見出語とカテゴリの結びつき、又は、下位カテゴリと上位カテゴリの結びつきを追加又は削除してもよい。また、ユーザからの指示に応じて、Wikipediaの見出語、カテゴリにない単語を追加し、また、不要な見出語、カテゴリを削除してもよい。
図4(a)は、上述のようにして自動的に生成されたシソーラス192の概念図である。
(ア)一の見出語と、当該見出語に結び付けられたカテゴリとの類似度wは、上記設定した類似度係数cを、カテゴリ数Nで除した値とする。但し、(ア)におけるカテゴリ数Nは、当該見出語に結びついているカテゴリの数である。例えば、図4(a)に示す例において、見出語Aと、見出語Aに結びつけられたカテゴリBとの類似度w(即ち、見出語AとカテゴリBとの類似度w(A,B))は、類似度係数c(0.8)を、カテゴリ数1で除した除算値(0.8)とする。
(イ)一の見出語と、当該見出語に結びつけられたカテゴリに更に結びつけられた上位のカテゴリとの類似度w’は、(ア)の如く算出した類似度wに類似度係数cを乗算し、カテゴリ数Nで除した値とする。但し、(イ)におけるカテゴリ数Nは、当該見出語に結びついているカテゴリに結びついている上位カテゴリの数である。例えば、図4(a)に示す例において、見出語Aと、見出語Aに結びつけられたカテゴリBに更に結びつけられた上位のカテゴリFとの類似度w’(即ち、見出語AとカテゴリFとの類似度w(A,F))は、類似度w(0.8)と類似度係数c(0.8)の乗算値(0.64)を、カテゴリ数2で除した除算値(0.32)とする。
なお、末節以外の節同士の類似度を算出する場合(例えばA〜Fが単に単語の場合)、単語間類似度算出部120は、例えば、図4(a)に示す例において、一の下位の単語Bの上位の単語の単語数が2個(単語C、単語F)であるため、単語間類似度算出部120は、類似度係数c(0.8)を単語数2で除した除算値(0.4)を、単語Bと単語Cの類似度、及び、単語Bと単語Fの類似度とする。
また、図4(b)に示す各単語間の類似度(即ち、単語間類似度情報記憶部194に記憶される単語間類似度情報)は、ネットワーク上の集合知(Wikipedia)から新しい単語語を迅速に取り込むことによって新たな単語を含めた単語間の類似度を反映させ、また、ネットワーク上の集合知(Wikipedia)への記述者(投稿者)による分類を活用することによって観点(例えば、ビジネス的な観点、技術的な観点)に応じた単語間の類似度を反映させたシソーラス192(図4(a))に基づいて、単語間類似度算出部120が算出するものであるため、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度が反映されている。
つまり、従来における文書の特徴量ベクトルは、当該文書内に存在する単語のtf−idfを要素にしているため(即ち、従来における文書の特徴量ベクトルの次元は、文書内の単語の種類に対応するものであるため)、文書内に存在しない単語のtf−idfは当該文書の特徴量ベクトルに反映しない。換言すれば、文書の特徴量ベクトルのある次元の値(ある単語のtf−idfの値)は当該単語の当該文書中における重要度と言えるが、従来は、文書に出現しない単語の重要度は0としている。従って、例えば、文書aに存在していない単語Tは、単語Tに類似する単語Sが文書aに存在していても、類似度の算出の過程(ベクトルの内積の計算)に何ら考慮されない。
(2)文書管理サーバ400は、特徴量算出装置100からの要求に応じて、管理文書を特徴量算出装置100に送信する。即ち、特徴量算出装置100は、文書管理サーバ400から、管理文書を取得する。なお、文書管理サーバ400は、例えば、前回の送信要求から今回の送信要求迄の間に、新規に管理した管理文書、又は、内容が更新された管理文書を特徴量算出装置100に送信してもよい。
(3)特徴量算出装置100は、文書管理サーバ400から取得した管理文書の特徴量ベクトル(新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した文書の特徴量ベクトル、以下、同じ)を算出し、算出した管理文書の特徴量ベクトルの情報を特徴量ベクトルデータベース900に記憶する。即ち、特徴量ベクトルデータベース900には、管理文書の特徴量ベクトルが蓄積される。
(5)文書検索サーバ300は、クライアント2から取得したキー文書とともに、キー文書の特徴量ベクトル(新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した文書の特徴量ベクトル、以下、同じ)の算出を特徴量算出装置100に要求する。即ち、特徴量算出装置100は、文書検索サーバ300から、キー文書とともに、キー文書の特徴量ベクトルの算出要求を取得する。
(6)特徴量算出装置100は、文書検索サーバ300から取得したキー文書の特徴量ベクトルを算出し、算出したキー文書の特徴量ベクトルの情報を文書検索サーバ300に応答する。即ち、文書検索サーバ300は、特徴量算出装置100から、キー文書の特徴量ベクトルの情報を取得する。
(7)文書検索サーバ300は、特徴量算出装置100から取得したキー文書の特徴量ベクトルの情報とともに、管理文書との類似度の算出を文書間類似度算出装置200に要求する。即ち、文書間類似度算出装置200は、文書検索サーバ300から、キー文書の特徴量ベクトルの情報とともに、管理文書との類似度の算出要求を取得する。
(8)文書間類似度算出装置200は、特徴量ベクトルデータベース900から管理文書の特徴量ベクトルの情報を取得する。
2…クライアント(端末)
10…文書類似度算出装置
100…特徴量算出部/特徴量算出装置/特徴量算出サーバ
110…tf−idf算出部
120…単語間類似度算出部
130…特徴量ベクトル算出部
190…単語頻度情報記憶部
192…シソーラス
194…単語間類似度情報記憶部
200…文書間類似度算出部(装置)/類似度算出サーバ
300…文書検索サーバ
400…文書管理サーバ
900…特徴量ベクトルデータベース
Claims (6)
- 文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置であって、
外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と、
文書を構成する各単語のtf−idfを算出するtf−idf算出部と、
前記tf−idf算出部によって算出された前記文書を構成する各単語のtf−idfと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出部と、
所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスと、
前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出部と
を備え、
前記単語間類似度算出部は、
単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数c(0<c<1)と設定したときに、一の下位の単語の上位の単語の単語数がN個(Nは1以上の整数)であった場合、類似度係数cを単語数Nで除した除算値を前記一の下位の単語と前記N個の中の一の上位の単語の類似度として算出することを特徴とする特徴量算出装置。 - 前記単語間類似度算出部は、
見出語とカテゴリの関係を上位と下位の関係で表し、上位と下位の類似度係数を類似度係数c(0<c<1)と設定したときに、一の下位の見出語の上位のカテゴリのカテゴリ数がN個(Nは1以上の整数)であった場合、類似度係数cをカテゴリ数Nで除した除算値を前記一の下位の見出語と前記N個の中の一の上位のカテゴリの類似度として算出することを特徴とする請求項1に記載の特徴量算出装置。 - 前記単語間類似度算出部は、
上位の単語と下位の単語とが複数のルートによって接続されている関係である場合には、夫々のルートによる類似度を算出し、夫々のルートによる類似度を合計した合計値を、当該上位の単語と下位の単語の類似度として算出することを特徴とする請求項1又は請求項2に記載の特徴量算出装置。 - 前記単語間類似度算出部は、
一の下位の単語と前記一の下位の単語に直接接続する上位の単語との類似度を用いて、前記一の下位の単語と前記一の上位の単語の更に上位の単語との類似度を繰り返し算出する算出処理を実行し、かつ、前記算出処理の繰り返し可能回数を制限することを特徴とする請求項1乃至請求項3に記載の特徴量算出装置。 - 外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスとを備え、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置における、特徴量算出方法であって、
文書を構成する各単語のtf−idfを算出するtf−idf算出手段と、
前記tf−idf算出手段によって算出された前記文書を構成する各単語のtf−idfと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出手段と、
前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出手段と
を有し、
前記単語間類似度算出手段は、
単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数c(0<c<1)と設定したときに、一の下位の単語の上位の単語の単語数がN個(Nは1以上の整数)であった場合、類似度係数cを単語数Nで除した除算値を前記一の下位の単語と前記N個の中の一の上位の単語の類似度として算出することを特徴とする特徴量算出方法。 - 外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスとを備え、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置のコンピュータに、
文書を構成する各単語のtf−idfを算出するtf−idf算出ステップと、
前記tf−idf算出ステップによって算出された前記文書を構成する各単語のtfidfと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出ステップと、
前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出ステップと
を実行させるプログラムにおいて、
前記単語間類似度算出ステップは、
単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数c(0<c<1)と設定したときに、一の下位の単語の上位の単語の単語数がN個(Nは1以上の整数)であった場合、類似度係数cを単語数Nで除した除算値を前記一の下位の単語と前記N個の中の一の上位の単語の類似度として算出することを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011057025A JP5292427B2 (ja) | 2011-03-15 | 2011-03-15 | 特徴量算出装置、特徴量算出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011057025A JP5292427B2 (ja) | 2011-03-15 | 2011-03-15 | 特徴量算出装置、特徴量算出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012194690A JP2012194690A (ja) | 2012-10-11 |
JP5292427B2 true JP5292427B2 (ja) | 2013-09-18 |
Family
ID=47086533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011057025A Expired - Fee Related JP5292427B2 (ja) | 2011-03-15 | 2011-03-15 | 特徴量算出装置、特徴量算出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5292427B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102243286B1 (ko) * | 2014-09-18 | 2021-04-22 | 경북대학교 산학협력단 | 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 |
JP5800974B1 (ja) * | 2014-09-30 | 2015-10-28 | 京セラコミュニケーションシステム株式会社 | 同義語判定装置 |
JP6427480B2 (ja) * | 2015-12-04 | 2018-11-21 | 日本電信電話株式会社 | 画像検索装置、方法、及びプログラム |
JP6190904B1 (ja) * | 2016-03-01 | 2017-08-30 | 京セラコミュニケーションシステム株式会社 | 類似文書検索装置 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2978044B2 (ja) * | 1993-10-18 | 1999-11-15 | シャープ株式会社 | 文書分類装置 |
JP3100955B2 (ja) * | 1999-02-18 | 2000-10-23 | 技術研究組合新情報処理開発機構 | 情報検索方法及び情報検索装置 |
JP2009277099A (ja) * | 2008-05-15 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
-
2011
- 2011-03-15 JP JP2011057025A patent/JP5292427B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012194690A (ja) | 2012-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832011B2 (en) | Question answering system using multilingual information sources | |
KR102354716B1 (ko) | 딥 러닝 모델을 이용한 상황 의존 검색 기법 | |
EP3128448A1 (en) | Factorized models | |
JP2009087347A (ja) | 情報検索システム | |
JP5292427B2 (ja) | 特徴量算出装置、特徴量算出方法およびプログラム | |
JP6849723B2 (ja) | 情報を生成するための方法及び装置 | |
US10740374B2 (en) | Log-aided automatic query expansion based on model mapping | |
US10354006B2 (en) | System, method, and recording medium for web application programming interface recommendation with consumer provided content | |
US11681713B2 (en) | Method of and system for ranking search results using machine learning algorithm | |
JP2016207141A (ja) | 要約生成装置、要約生成方法、及び要約生成プログラム | |
JP7141191B2 (ja) | 方法、システム、およびコンピュータ・プログラム(クエリ処理) | |
JP2024518152A (ja) | 機械学習によるスキルデータの生成 | |
US20180285449A1 (en) | Natural language processing keyword analysis | |
US20200192961A1 (en) | Method of and system for generating feature for ranking document | |
JPWO2019082362A1 (ja) | 単語意味関係推定装置および単語意味関係推定方法 | |
Shah et al. | Literature study on multi-document text summarization techniques | |
GB2569858A (en) | Constructing content based on multi-sentence compression of source content | |
US10083229B2 (en) | System, method, and apparatus for pairing a short document to another short document from a plurality of short documents | |
Dubuisson Duplessis et al. | Utterance retrieval based on recurrent surface text patterns | |
US20220019902A1 (en) | Methods and systems for training a decision-tree based machine learning algorithm (mla) | |
JP2013033452A (ja) | 文書検索装置および方法 | |
JP2012221489A (ja) | 効率的にクエリを処理する方法及び装置 | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
TWI582624B (zh) | 用於感知情境並推薦資訊之電子計算裝置、其方法及其電腦程式產品 | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5292427 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |