JP7170487B2 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP7170487B2
JP7170487B2 JP2018189532A JP2018189532A JP7170487B2 JP 7170487 B2 JP7170487 B2 JP 7170487B2 JP 2018189532 A JP2018189532 A JP 2018189532A JP 2018189532 A JP2018189532 A JP 2018189532A JP 7170487 B2 JP7170487 B2 JP 7170487B2
Authority
JP
Japan
Prior art keywords
extracted
character string
word
documents
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018189532A
Other languages
English (en)
Other versions
JP2020060816A (ja
Inventor
賢一郎 小林
巧 清家
満広 ゼイ田
基成 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suntory Holdings Ltd
TIS Inc
Original Assignee
Suntory Holdings Ltd
TIS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suntory Holdings Ltd, TIS Inc filed Critical Suntory Holdings Ltd
Priority to JP2018189532A priority Critical patent/JP7170487B2/ja
Publication of JP2020060816A publication Critical patent/JP2020060816A/ja
Application granted granted Critical
Publication of JP7170487B2 publication Critical patent/JP7170487B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。
多数の文書(例えば論文、技術資料、特許文献など)の中から、求める情報が記載されている文書や参考になる文書を簡単に探し出したい、というニーズは古くからある。そのようなニーズに対するアプローチとして、従来は、検索クエリにマッチする文書を複数抽出し、マッチ度合の高いものから順に一覧表示する方法が主流であった。しかしながら、このような方法では、検索結果として出力される文書一覧を見ても、ユーザとしては、抽出された文書同士の関連性や類似性を掴むことができず、検索結果を十分に活用することが難しかった。これに対し、非特許文献1では、抽出された文書からピックアップした複数の単語を木構造で表示することにより、文書同士の関係を直観的に表現しようとする試みが提案されている。
しかしながら、本発明者らが検証したところ、木構造による表現は非常に有用であるものの、非特許文献1の方法では、単語同士の関係や文書同士の関連性・類似性を適切に表現できない場合も多く、実用化のためにはさらなる改良が必要であるとの課題を認識するに至った。また、単語や文書の関係性を評価・分析するにあたり、ユーザとしては、ノード間の関連性の強弱に変更を加えたいと望む場合もあり得るが、従来の木構造ではそのような変更操作を行うことは困難であった。
本発明は上記実情に鑑みなされたものであって、複数の文書について、文書同士の関連性・類似性や文書に登場する単語同士の関係を適切かつ直感的に表現し、ユーザによる情報探索作業を支援することのできる技術を提供することを目的とする。また、本発明のさらなる目的は、木構造におけるノード間の関連性の強さの変更を容易にするための技術を提供することにある。
本発明の1つの側面は、データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出する検索部と、前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出する解析部と、前記複数の抽出文字列の各々について、当該抽出文字列の特徴を表す文字列特徴量を求める文字列特徴算出部と、前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力する出力部と、前記木構造において2以上のノードを指定して所定の操作が行われると、少なくとも指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に影響を与える所定の処理を実行した後、前記木構造の再構築を行う処理部と、を有する情報処理装置を提供する。
「文字列」は、「単語」であってもよいし、複数の単語から構成される「複合語」や「
語句」であってもよい。「文字列特徴量」は単一の値からなる指標(スカラー)でもよいし複数の値の組からなる指標(ベクトル)であってもよい。スカラーの場合、「文字列特徴量の差」は、例えば、2つの文字列の文字列特徴量の差又はその絶対値である。ベクトルの場合、「文字列特徴量の差」は、例えば、2つのベクトルのコサイン類似度やユークリッド距離から計算できる。
上述した本発明の木構造では、文字列の特徴を表す文字列特徴量の差に基づいて各ノードの配置が決定されているので、各ノード(文字列)の配置や接続関係などから、検索結果(複数の抽出文書)に含まれる文字列群の傾向などを容易に把握できる。また、木構造において2以上のノードを指定して所定の操作を行うと、それらのノードの文字列特徴量が変化した上で木構造が再構築されるため、ユーザ自身が木構造におけるノード間の関連性の強さを容易に変更することができる。
情報処理装置が、前記複数の抽出文書の各々について、当該文書が有する特徴を数値化した文書特徴スコアを算出する文書特徴算出部をさらに備える場合には、前記文字列特徴算出部は、前記複数の抽出文字列の各々について、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアから当該抽出文字列の文字列特徴量を求めるとよい。このような技術によれば、抽出文字列の特徴を、抽出文字列そのものではなく、当該抽出文字列を使用している文書(テキスト)の特徴である文書特徴スコアを使って表現している。それゆえ、木構造における各ノードの配置や接続関係は、文書同士の関連性・類似性をよく反映したものとなる。したがって、本発明の木構造を用いることにより、複数の文書について、文書同士の関連性・類似性や文書に登場する単語同士の関係を適切かつ直感的に表現することができ、ユーザによる情報探索作業を支援することが可能となる。
この場合、前記所定の処理は、指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に対して重みづけを行う処理であるとよい。重みづけ処理の前に比べて、重みづけ処理後の方が、文字列同士の文字列特徴量が近づくため、再構築された木構造においてそれらの文字列が近くに配置されるようになる。
なお、文書特徴スコアから文字列特徴量を求める方法以外に、文字列から直接的に文字列特徴量を求める方法も採り得る。例えば、前記文字列特徴算出部は、入力文字列をn個のクラス(nは2以上の整数)に分類する文字列分類器から構成され、前記抽出文字列を前記文字列分類器に入力したときの出力スコアを当該抽出文字列の文字列特徴量としてもよい。この「文字列分類器」は、例えば、複数の文字列を教師データとして用いた機械学習により生成された分類器でもよいし、ルールやモデルから理論的に作成した分類器であってもよい。
この場合、前記所定の処理は、指定された前記2以上のノードのそれぞれに対応付けられている2以上の文字列に共通に関係する教師データを追加した上で、前記文字列分類器の再学習を行う処理であるとよい。このような教師データを追加して再学習を行うことにより、この2以上の文字列について、より近い値の文字列特徴量を出力するような文字列分類器を得ることができる。
なお、本発明は、上述した機能ないし処理の少なくとも一部を含む情報処理方法、又は、当該情報処理方法の各ステップをコンピュータに実行させるプログラム、又は、当該プログラムを非一時的に記憶した記憶媒体などとして捉えることもできる。また、本発明は、上述した木構造を生成する木構造生成装置や木構造生成方法、上述した木構造を出力ないし表示する木構造出力装置や木構造出力方法、複数の文書を分析するための文書分析装置や文書分析方法、文書に含まれる複数の文字列を分析するための文字列分析装置や文字列分析方法、ユーザによる情報探索を支援する情報探索支援装置や情報探索支援方法など
として捉えることもできる。
開示の技術は、語句がノードに対応付けられた木構造において、ノードの再配置を容易にすることができる。
図1は、実施形態に係る情報処理装置の構成の一例を示す図である。 図2は、第1実施形態に係る情報処理装置の機能ブロックの一例を示す図である。 図3は、形態素解析部による形態素解析結果の一例を示す図である。 図4は、文書ベクトルの一例を示す図である。 図5は、単語ベクトルの一例を示す図である。 図6は、分類度ベクトルの一例を示す図である。 図7は、「空」である基点ノードの配下に最も分類度が高い単語のノードと最も分類度が低い単語のノードとを配置した状態の一例を示す図である。 図8は、最も類似するノードを追加した状態の一例である。 図9は、重みづけによって各単語の分類度が変更される様子の一例を示す図である。 図10は、重みづけによって各単語の分類度ベクトルが変更される様子の一例を示す図である。 図11は、実施形態に係る処理フローの一例を示す第1の図である。 図12は、実施形態に係る処理フローの一例を示す第2の図である。 図13は、実施形態に係る処理フローの一例を示す第3の図である。 図14は、実施形態に係る処理フローの一例を示す第4の図である。 図15は、重みづけ履歴の一例を示す図である。 図16は、重みづけによってノードの配置が変更される様子の一例を示す図である。 図17は、第2実施形態に係る情報処理装置の機能ブロックの一例を示す図である。
以下、図面を参照して、本発明の実施形態に係る情報処理装置、情報処理方法およびプログラムについて説明する。本実施形態に係る情報処理装置は、データベースに蓄積された多数の文書の中から検索条件にマッチする複数の文書を抽出し、抽出された文書に出現する文字列同士の関係を木構造のグラフ形式で出力するものである。以下では、文字列の特徴を示す文字列特徴量の求め方が異なる2つの実施形態を例示する。第1実施形態は、文書の特徴量(文書特徴スコア)を用いて間接的に文字列特徴量を求める方法を開示するものであり、第2実施形態は、分類器を用いて文字列から直接的に文字列特徴量を求める方法を開示する。ただし、以下に示す実施形態の構成は本発明の構成の例示であり、本発明は以下の実施形態の構成に限定されない。
<第1実施形態>
図1は、第1実施形態に係る情報処理装置100の構成の一例を示す図である。図1には、情報処理装置100に接続されるディスプレイ210、キーボード220およびマウス230も例示されている。情報処理装置100は、Central Processing Unit(CPU
)101、主記憶部102、補助記憶部103、通信部104、入出力インターフェース(図中では、入出力IFと表記)105を備えるコンピュータである。CPU101、主記憶部102、補助記憶部103、通信部104および入出力インターフェース105は、接続バスB1によって相互に接続される。
CPU101は、マイクロプロセッサユニット(MPU)、プロセッサとも呼ばれる。CPU101は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のCPU101がマルチコア構成を有していてもよい。CPU101が実行する処理のうち少なくとも一部は、CPU101以外のプロセッサ、例えば、Digital Signal Processor(DSP)、Graphics Processing Unit(GPU)、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われてもよい。また、CPU101が実行する処理のうち少なくとも一部は、集積回路(IC)、その他のディジタル回路によって実行されてもよい。また、CPU101の少なくとも一部にアナログ回路が含まれてもよい。集積回路は、Large Scale Integrated circuit(LSI)、Application Specific Integrated Circuit(AS
IC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field-Programmable Gate Array(FPGA)を含む。CPU101は、プロセッサと集積回路
との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラユニット(MCU)、System-on-a-chip(SoC)、システムLSI、チップセットなどと呼ばれる。
情報処理装置100では、CPU101が補助記憶部103に記憶されたプログラムを主記憶部102の作業領域に展開し、プログラムの実行を通じて周辺装置の制御を行う。これにより、情報処理装置100は、所定の目的に合致した処理を実行することができる。主記憶部102および補助記憶部103は、情報処理装置100が読み取り可能な記録媒体である。主記憶部102は、CPU101から直接アクセスされる記憶部として例示される。主記憶部102は、Random Access Memory(RAM)およびRead Only Memory(ROM)を含む。
補助記憶部103は、各種のプログラムおよび各種のデータを読み書き自在に記録媒体に格納する。補助記憶部103は外部記憶装置とも呼ばれる。補助記憶部103には、オペレーティングシステム(Operating System、OS)、各種プログラム、各種テーブル等が格納される。OSは、通信部104を介して接続される外部装置等とのデータの受け渡しを行う通信インターフェースプログラムを含む。外部装置等には、例えば、コンピュータネットワーク等で接続された、他の情報処理装置および外部記憶装置が含まれる。なお、補助記憶部103は、例えば、ネットワーク上のコンピュータ群であるクラウドシステムの一部であってもよい。
補助記憶部103は、例えば、Erasable Programmable ROM(EPROM)、ソリッド
ステートドライブ(Solid State Drive、SSD)、ハードディスクドライブ(Hard Disk
Drive、HDD)等である。また、補助記憶部103は、例えば、Compact Disc(CD)ドライブ装置、Digital Versatile Disc(DVD)ドライブ装置、Blu-ray(登録商標) Disc(BD)ドライブ装置等である。また、補助記憶部103は、Network Attached Storage(NAS)あるいはStorage Area Network(SAN)によって提供されてもよい。
通信部104は、例えば、インターネットやLocal Area Network(LAN)等のコンピュータネットワークとのインターフェースである。通信部104は、コンピュータネットワークを介して外部装置等と通信を行う。
入出力インターフェース105は、入出力装置とのインターフェースであり、例えば、PS/2コネクタ、Universal Serial Bus(USB)コネクタ、Video Graphics Array(VGA)コネクタ、Digital Visual Interface(DVI)コネクタ、High-Definition Multimedia Interface(HDMI(登録商標))等である。
ディスプレイ210は、CPU101で処理されるデータや主記憶部102に記憶されるデータを出力する出力部である。ディスプレイ210は、例えば、Cathode Ray Tube(CRT)ディスプレイ、Liquid Crystal Display(LCD)、Plasma Display Panel(PDP)、Electroluminescence(EL)パネル、有機ELパネル等である。ディスプレイ
210は、入出力インターフェース105を介して情報処理装置100に接続される。
キーボード220およびマウス230は、ユーザ等からの操作指示等を受け付ける入力手段である。キーボード220およびマウス230は、入出力インターフェース105を介して情報処理装置100に接続される。
<情報処理装置100の機能ブロック>
図2は、第1実施形態に係る情報処理装置100の機能ブロックの一例を示す図である。情報処理装置100は、テキスト検索部301、テキストデータベース(図中では、テキストDBと表記)301a、形態素解析部302、文書ベクトル生成部303、単語ベクトル生成部304、単語分類度計算部306、分類器307、特徴モデル307a、分類度ベクトル生成部308、基点決定部309,表示データ生成部310、単語特徴量比較部311、ノード近接処理部312、重みづけ履歴312aおよび係数表示部313を備える。情報処理装置100は、主記憶部102に実行可能に展開されたコンピュータプログラムをCPU101が実行することで、上記各部としての処理を実行する。
テキストデータベース301aには、多数の文書が格納されている。文書は、少なくともテキストを含むデータであり、例えば、論文、技術資料、仕様書、特許文献、書籍、法令、契約書、判例、HTMLやXMLで記述された文書などを例示できる。文書は、テキストの他に、画像や動画や音声を含んでもよい。なお、本明細書では、「文書」という語を文書データ又は文書ファイルの意味で用いるが、文脈によっては、文書データ又は文書ファイルに含まれるテキストの意味で「文書」の語を用いる場合もある。テキストデータベース301aは、文書を文書IDと対応付けて管理する。文書IDは、文書を一意に特定するための識別情報である。なお、文書がインターネットなどのネットワーク上に存在するリソースである場合には、文書の実体の代わりに、文書の実体へのUniform Resource
Identifier(URI)をテキストデータベース301aに格納してもよい。テキストデ
ータベース301aは、「データベース」の一例である。
テキスト検索部301は、キーボード220等の入力手段を介して指定された検索条件に基づいて、検索条件にマッチする複数の文書をテキストデータベース301aから抽出する。テキスト検索部301により抽出された文書を「抽出文書」と呼ぶ。検索条件は、少なくともキーワードを含み、さらに論理演算子を含んでもよい。テキスト検索部301は、抽出文書の文書IDを主記憶部102や補助記憶部103に記憶させる。テキスト検索部301は、「検索部」の一例である。
形態素解析部302は、入力された文書に含まれるテキストを単語に分割する形態素解析を行う。形態素解析部302は、例えば、単語と品詞とを対応づけた辞書を基にテキストを単語に分割し、当該単語に対応する品詞情報を導く。図3は、形態素解析部302による形態素解析結果の一例を示す図である。図3は、「リンゴは青森などで栽培されている果物です。」というテキストに対して形態素解析を実行した結果の一例である。図3において、各行の左端が、分割された単語を示す。分割された単語の右側には、当該単語の品詞情報として品詞、原形、活用の種類、発音表記等がカンマ区切りで示されている。
形態素解析部302は、テキスト検索部301から受け取った複数の抽出文書の各々に含まれるテキストを解析することにより、複数の抽出文書に少なくとも1回以上登場する単語を抽出する。形態素解析部302は、複数の抽出文書から抽出した複数の単語のそれ
ぞれに単語IDを付し、それらを解析結果として主記憶部102に格納する。単語IDは、単語を一意に特定するための識別情報である。形態素解析部302は、「解析部」の一例である。なお本実施形態では、解析部の具体例として形態素解析を例示したが、文書の解析方法は形態素解析に限られず、他の方法を採用してもよい。例えば、日本語の文書の場合には形態素解析の他、チャンキング処理を含む構文解析などを利用してもよい。また、英語の文書の場合にはtokenizerやchunkerを利用することも好ましい。
形態素解析部302は、抽出文書に含まれるすべての単語を抽出してもよいが、抽出数を減らすために、所定の品詞(例えば名詞など)に限定して抽出したり、登場回数が所定の閾値より多い単語のみを抽出したり、登場回数が多いものから所定数の単語を抽出したりしてもよい。また形態素解析部302は、構文解析を併用して、抽出する単語や句を形成する複合語や係り受け関係を持っている単語や句を形成する複合語の対を選定してもよい。例えばチャンキング処理を含む構文解析を利用することにより、意味的にまとまりのある複合語や語句を抽出することが可能となる。また、形態素解析部302は、形態素解析の結果から単語N-gramを生成してもよい。この場合、形態素解析部302によって最終的に出力される文字列は「単語」ではなく「複数の単語からなる複合語または語句」となるが、これ以降の処理において「単語」と「複合語」と「語句」を区別したり、「単語」か「複合語」か「語句」かで処理を変えたりする必要は特段ない。したがって、以下の説明では便宜的に「単語」という表現を用いるが、形態素解析部302から出力される文字列が「語句」または「複合語」の場合は以下の説明における「単語」を「語句」または「複合語」と読み替えればよい。上述した、登場回数の閾値、抽出する単語数、単語N-gramにおけるパラメータNなどの設定をユーザに指定可能とするとよい。なお、単語N-gramを生成する場合には、N個の単語から構成される語句のみを抽出してもよいし、N個以下の単語から構成される語句を抽出してもよい。
文書ベクトル生成部303は、形態素解析部302によって抽出された複数の単語の各々について、文書ベクトルを生成する。文書ベクトルは、当該単語の抽出文書ごとの出現回数を要素としてもつベクトルである。文書ベクトル生成部303は、生成した文書ベクトルを単語IDに対応付けて主記憶部102または補助記憶部103に記憶させる。図4は、文書ベクトル3031の一例を示す図である。図4の各列が文書ベクトル3031を示し、各行が抽出文書を示している。表中の数字は、対応列の単語が対応行の文書に出現する回数を示している。抽出文書の数がM個であれば、文書ベクトル3031はM次元のベクトルになる。例えば、図4において、単語ID「101」の単語「リンゴ」の文書ベクトル3031は{…,1,2,3,0,0,…}で示されている。この文書ベクトル3031により、単語「リンゴ」が、文書ID「11」の文書に1回、文書ID「12」の文書に2回、文書ID「13」の文書に3回出現し、文書ID「14」および「15」の文書には出現しないことがわかる。
単語ベクトル生成部304は、テキスト検索部301によって抽出された複数の抽出文書の各々について、単語ベクトルを生成する。単語ベクトルは、当該文書における単語ごとの出現回数を要素としてもつベクトルである。単語ベクトル生成部304は、生成した単語ベクトルを文書IDに対応付けて主記憶部102または補助記憶部103に記憶させる。図5は、単語ベクトル3041の一例を示す図である。図5の各行が単語ベクトル3041を示し、各列が単語を示している。表中の数字は、対応列の単語が対応行の文書に出現する回数を示している。単語の数がL個であれば、単語ベクトル3041はL次元のベクトルになる。例えば、図5において、文書ID「12」の文書の単語ベクトル3041は{…,2,1,0,0,0,0,0,…}で示されている。この単語ベクトル3041により、文書ID「12」の文書中に、単語「リンゴ」が2回と単語「ミカン」が1回出現し、単語「トマト」「スイカ」「メロン」「きゅうり」「イチゴ」は出現しないことがわかる。
分類器307は、入力される文書をn個のクラス(nは2以上の整数)に分類する分類器である。分類器307は、例えば、予め用意された特徴モデル307aを用いて入力文書のスコアを計算し出力する。このスコアは、入力文書が或るクラスに属する確率又は尤度を表す値であって、連続値をとる(したがって、分類器307は回帰器と呼んでもよい。)。例えば、入力文書を「果物に関する文書」か否かに分類する2クラス分類器の場合は、0~1の変域のスコアを出力するように設計ないし学習するとよい。この場合、出力スコアが1に近いほど「入力文書は果物に関する文書である可能性が高い」と判断でき、出力スコアが0に近いほど「入力文書は果物に関する文章ではない可能性が高い」と判断できる。また、入力文書を「野菜に関する文書」か「果物に関する文書」か「それ以外の文書」かに分類する3クラス分類器の場合は、-1(野菜)~0~+1(果物)の変域のスコアを出力するように設計ないし学習するとよい。この場合、出力スコアが-1に近いほど「入力文書は野菜に関する文書である可能性が高い」と判断でき、出力スコアが+1に近いほど「入力文書は果物に関する文書である可能性が高い」と判断でき、出力スコアが0に近いと「入力文書は野菜に関する文書でも果物に関する文書でもない可能性が高い」と判断できる。このような分類器307は、多数の教師データ(トレーニング用の文書サンプル)を用いた機械学習によって作成してもよいし、人が設計したルールやモデルに基づいて作成してもよい。機械学習の方法は何でもよく、例えば、サーポートベクターマシン(SVM)、ベイジアンネットワーク、ニューラルネットワーク(NN)、ディープニューラルネットワーク(DNN)などを利用できる。本実施形態ではSVMを用いる。分類器307の出力スコアは、入力文書が有する特徴を数値化したものといえるので、以下では「文書特徴スコア」と呼ぶ。分類器308は、抽出文書ごとの文書特徴スコアを算出する「文書特徴算出部」の一例である。
単語分類度計算部306と分類度ベクトル生成部308はともに、単語の文書ベクトル3031と各文書の文書特徴スコアに基づいて、当該単語の特徴を表す特徴量を算出する機能である。単語分類度計算部306と分類度ベクトル生成部308の違いは、前者で求められる特徴量(分類度)が一つの値からなる指標(スカラー)であるのに対し、後者で求められる特徴量(分類度ベクトル)は複数の値の組からなる指標(ベクトル)である点である。いずれの特徴量も単語(文字列)の特徴を表す指標であり、「文字列特徴量」の一例である。各々の特徴量の具体的な計算方法を以下に述べる。
単語分類度計算部306は、対象となる単語の文書ベクトル3031から、当該単語が1回以上出現する抽出文書(以下「出現文書」と呼ぶ)を特定し、特定された出現文書それぞれの文書特徴スコアに基づいて当該単語の特徴量を計算する。具体的には、単語分類度計算部306は、出現文書の文書特徴スコアとその出現文書における当該単語の出現回数との積を計算し、文書特徴スコアと出現回数の積をすべての出現文書について合計した値を、当該単語の特徴量とする。この特徴量は、後段の木構造生成処理において単語の分類に利用されるため、本明細書ではこの特徴量を「単語の分類度」と称する。例えば図6の「スイカ」の場合、出現文書は文書ID「13」と「15」の2つの文書であり、それぞれの文書特徴スコアは「0.8」と「-0.1」、出現回数は「6」と「3」である。したがって「スイカ」の分類度は、
「スイカ」の分類度=6×0.8+3×(-0.1)=4.5
と求まる。なお本実施形態では、文書特徴スコアと出現回数の積の合計値を分類度と定義したが、合計値の代わりに別の統計量を用いてもよい。例えば、平均、標準偏差等によって分類度が求められてもよい。
分類度ベクトル生成部308は、対象となる単語の文書ベクトル3031から出現文書を特定し、特定された出現文書それぞれの文書特徴スコアに基づいて当該単語の特徴量を計算する。具体的には、分類度ベクトル生成部308は、文書特徴スコアと当該単語の出
現回数との積を要素としてもつベクトルを、当該単語の特徴量とする。この特徴量も、後段の木構造生成処理において単語の分類に利用されるため、本明細書でこの特徴量を「分類度ベクトル」と称する。例えば図6の「スイカ」の場合、分類度ベクトル3081は{…,0,0,6×0.8,0,3×(-0.1),…}となる。なお、本実施形態の例では、単語の分類度は、当該単語の分類度ベクトルのすべての要素の和に等しくなる。
基点決定部309は、木構造の基点となる単語を決定する。基点となる単語は、例えば、ユーザが指定した単語であってもよいし、分類度が最も大きい単語又は最も小さい単語であってもよいし、分類度ベクトル3081の大きさが最も大きい単語又は最も小さい単語であってもよい。また、基点決定部309が、すべての単語の間の分類度の平均である平均分類度を算出し、すべての単語のうちで平均分類度に最も近い分類度をもつ単語を基点に選んでもよい。また、基点決定部309は、すべての単語の間の分類度ベクトルの平均である平均分類度ベクトルを算出し、すべての単語のうちで平均分類度ベクトルに最も近い分類度ベクトルをもつ単語を基点に選んでもよい。基点決定部309は、基点として決定した単語の情報を表示データ生成部310に渡す。なお、本実施形態では、分類度ベクトル3081の大きさを「分類度ベクトルのすべての要素の和」と定義する。したがって、本実施形態では「単語の分類度」と「単語の分類度ベクトルの大きさ」は同じ値となる。
なお、木構造の基点は空(から)のノードであってもよい。基点を空のノードにする場合、基点決定部309は、すべての単語の中から、分類度が最も大きい単語と最も小さい単語のペア、又は、分類度ベクトルの大きさが最も大きい単語と最も小さい単語のペアを選択し、表示データ生成部310に渡す。
表示データ生成部310は、複数の単語の関係を表す木構造を生成し、ディスプレイ210に出力する。本実施形態で生成される木構造は、各々のノードに単語が対応付けられており、かつ、単語間の特徴量(分類度又は分類度ベクトル)の差に基づいて各ノードの配置が決定される点に特徴がある。詳しくは後述する。
単語特徴量比較部311は、2つの単語の間の特徴量を比較することで、2つの単語の類似度を評価する機能である。具体的には、単語特徴量比較部311は、2つの単語の間の特徴量の差を計算し、その値を類似度として出力する(この場合、差が小さいほど類似度が高い、差が大きいほど類似度が低いこととなる)。特徴量の差は、例えば次のように求めることができる。特徴量が分類度(スカラー)の場合は、2つの単語の間で分類度の差(減算値)又はその絶対値を計算すればよい。また特徴量が分類度ベクトルの場合は、2つの単語の間の分類度ベクトルの差を、コサイン類似度やユークリッド距離等のベクトル比較関数により計算すればよい。
ノード近接処理部312は、木構造におけるノード間の関連性の強さを変更するための操作環境をユーザに提供する機能である。具体的には、ユーザがキーボード220やマウス230等を用いて木構造における2以上のノードを指定し所定の操作(ボタンの押下やメニューの選択など)を行うと、ノード近接処理部312は、少なくとも指定された2以上のノードに対応付けられている単語の特徴量(分類度又は分類度ベクトル)に影響を与える所定の処理を実行する。ここで「所定の処理」は、例えば、指定された2以上のノードに対応付けられている単語の特徴量に対して重みづけを行う処理などが該当する。ノード近接処理部312は、「処理部」の一例である。
<処理フロー>
図11から図14を参照して、第1実施形態に係る情報処理装置100が実行する処理フローについて説明する。図11から図14は、第1実施形態に係る処理フローの一例を
示す図である。図11の「A」は図12の「A」に接続し、図12の「B」は図13の「B」に接続し、図13の「C」は図14の「C」に接続し、図14の「D」は図12の「D」に接続する。
ステップS1では、キーボード220等の入力手段によって検索条件が指定され、検索クエリが生成される。検索クエリは、テキスト検索部301に渡される。ステップS2では、テキスト検索部301は、検索クエリに含まれるキーワードを含む文書をテキストデータベース301aから抽出する。ステップS1からステップS2までの処理は、「検索ステップ」の一例である。
ステップS3では、形態素解析部302は、テキスト検索部301で得られた抽出文書の各々のテキストに対し形態素解析を行うことによって、複数の単語(文字列)を抽出する。ステップS3は、「解析ステップ」の一例である。
ステップS4では、文書ベクトル生成部303は、形態素解析部302で得られた各々の単語について文書ベクトル3031を生成する。ステップS5では、単語ベクトル生成部304が、テキスト検索部301で得られた各々の抽出文書について単語ベクトル3041を生成する。ステップS4とステップS5の順番は入れ替えてもよい。
ステップS6では、分類器307が、テキスト検索部301で得られた抽出文書の各々について、文書特徴スコアを算出する。ステップS7では、単語分類度計算部306が、各単語の分類度を計算する。ステップS8では、分類度ベクトル生成部308が、各単語の分類度ベクトルを計算する。ステップS6は、「文書特徴算出ステップ」の一例であり、ステップS7からステップS8は、「文字列特徴量算出ステップ」の一例である。
ステップS9では、基点決定部309が、木構造の基点ノードとなる単語を決定する。基点決定部309は、基点ノードとして決定した単語を表示データ生成部310に渡す。なお、基点ノードを「空」とする場合には、基点決定部309は、分類度が最も大きい単語と最も小さい単語のペア、又は、分類度ベクトルの大きさが最も大きい単語と最も小さい単語のペア、を表示データ生成部310に渡す。ステップS9は、「基点決定ステップ」の一例である。
ステップS10では、表示データ生成部310が、基点決定部309から渡された単語を基点ノードとして設定する。基点ノードが「空」である場合には、表示データ生成部310は、基点決定部309から受け取った単語のペアを「空」である基点ノードの配下に配置する。図7は、「空」である基点ノードの配下に分類度が最も大きい単語「リンゴ」のノードと分類度が最も小さい単語「トマト」のノードとを配置した状態の一例を示す図である。ステップS10により木構造の基点が生成される。
ステップS11では、表示データ生成部310は、残りの単語(つまり、未だ木構造に配置されていない単語)の中から、次に木構造に追加する候補となる単語を選択する。基点ノードが「空」の場合は、例えば、残りの単語の中から、単語の分類度が最も大きい単語と最も小さい単語のペア、又は、単語の分類度ベクトルの大きさが最も大きい単語と最も小さい単語のペアを選択するとよい。基点ノードが「空」でない場合は、例えば、残りの単語の中から、基点ノードの単語に最も類似する単語を選択するとよい(なお、単語間の類似度については単語特徴量比較部311と同じ方法で計算すればよい)。選択された追加候補の単語は、単語特徴量比較部311に渡される。
ステップS12では、単語特徴量比較部311が、木構造に既に表示されているノードのうち、子ノードを追加可能なノードを特定する。本実施形態では二分木を対象としてい
るため、子ノードを追加可能なノードとは、子ノードを有していないか、1つの子ノードのみを有するノードである。そして、単語特徴量比較部311は、ステップS11で選択された追加候補の単語と子ノードを追加可能なノードに対応付けられた単語とのすべての組み合わせについて、単語間の特徴量を比較し、単語間の類似度が最も高い(特徴量の差が最も小さい)組み合わせを選定する。追加候補の単語と子ノードを追加可能なノードの情報は、表示データ生成部310に渡される。
ステップS13では、表示データ生成部310が、子ノードを追加可能なノードに対し新たな子ノードを追加し、その子ノードに追加候補の単語を対応付ける。これにより特徴量が類似する単語が子ノードとして連結されていくことになる。図8は、類似するノードを追加した状態の一例である。図8では、ノード「リンゴ」の下に子ノード「みかん」が追加され、ノード「トマト」の下に子ノード「きゅうり」が追加されている。本実施形態では二分木で表示されるため、2つの子ノードを有するノードについては、子ノードの追加が行われない。
ステップS14では、表示データ生成部310が、未処理の単語(つまり木構造に追加されていない単語)が残っているか調べる。未処理の単語が残っている場合は、ステップS11~S13の処理を繰り返す。未処理の単語が無い場合は、ステップS15に移る。ステップS15では、表示データ生成部310が、決定した構造の二分木をディスプレイ210等の表示装置に出力する。
ステップS16以降の処理は、表示された木構造に対する操作に応答する処理である。ステップS16では、ユーザによりノード近接指示が行われた否かが判定される。例えば、ユーザがマウス230等を用いて2つ以上のノードを指定(以後「近接対象ノード」と呼ぶ)し、メニューから「近接処理」を選択する、というような所定の操作が行われた場合に、「近接対象ノードに対するノード近接指示が行われた」と判定される。ノード近接指示が行われた場合(ステップS16でYES)、処理はステップS17へ進められる。ノード近接指示が行われていない場合(ステップS16でNO)、ステップS16の処理が繰り返される。
ステップS17において、ノード近接処理部312は重みWを計算する。ステップS18において、ノード近接処理部312は重みWを用いて重みづけ処理を行う。なお、重みの計算式及び重みづけ処理の内容は、木構造を生成するときに用いる単語特徴量が「分類度(スカラー)」であるか「分類度ベクトル」であるかで相違する。そこで以下、それぞれの場合を分けて説明する。
(分類度の場合)
木構造を生成するときの単語特徴量として分類度を用いている場合には、ノード近接処理部312は、重みWを以下の式(1)によって求める。
Figure 0007170487000001
式(1)において、
Nは「すべてのノード(単語)の中での、出現文書の最大数」であり、
MCは「近接対象ノード(単語)の間で共通する出現文書の数」であり、
NCは「近接対象ノード(単語)の数」であり、
MAは「すべての文書の文書特徴スコアの平均値」である。
例えば、図9の上段に示す7つの単語と5つの文書からなる木構造を仮定し、「ミカン」と「イチゴ」の2つのノードが指定された状態でノード近接指示が行われた場合を例にとり、重みづけ処理の具体例を説明する。各ノードの出現文書の数は、「リンゴ」が3、「ミカン」と「スイカ」と「メロン」と「きゅうり」と「イチゴ」が2、「トマト」が1であるから、N=3となる。また近接対象ノードは「ミカン」と「イチゴ」の2つであるから、NC=2となり、「ミカン」と「イチゴ」の間で共通する出現文書は1つ(文書ID:13)であるから、MC=1となる。また、MA=(0.3+0.5+0.8-0.5-0.1)/5=0.2となる。したがって、重みはW=0.3と求まる。
次に、ノード近接処理部312は、重みWを用いた重みづけ処理を実行する。重みづけ処理は、近接対象ノードの間で共通する出現文書(以下「近接対象ノードの共通文書」と呼ぶ)の重みを他の文書に比べて大きくするための処理、言い換えると、近接対象ノードの共通文書が分類度の計算に与える影響度合いを他の文書に比べて相対的に強くするための処理である。本実施形態では、近接対象ノードの共通文書の文書特徴スコアに重みWを加算する、という処理を行う。上記例のように、近接対象ノードとして「ミカン」と「イチゴ」が選ばれている場合、「ミカン」と「イチゴ」の共通文書は文書ID「13」の文書1つであるから、重みづけ処理の結果、文書ID「13」の文書特徴スコアのみが0.8→1.1(=0.8+0.3)のように調整される。そして、調整後の文書特徴スコアを用いて、すべての単語の分類度が再計算され、各単語の分類度が図9の下段のように変化する。
このような重みづけ処理によって、近接対象ノードとして選ばれた単語である「ミカン」と「イチゴ」の分類度だけでなく、近接対象ノードの共通文書に出現する他の単語「リンゴ」、「スイカ」、「メロン」の分類度も変化することがわかる。その結果、重みづけ処理の前と後で、単語同士の類似関係が変化する。
(分類度ベクトルの場合)
木構造を生成するときの単語特徴量として分類度ベクトルを用いている場合には、ノード近接処理部312は、重みWを以下の式(2)によって求める。
Figure 0007170487000002
式(2)において、
は「すべてのノード(単語)の中での、出現文書の最大数」であり、
MCは「近接対象ノード(単語)の間で共通する出現文書数」であり、
NCは「近接対象ノード(単語)の数」である。
つまり、式(2)は、式(1)のMAが無い式である。例えば、図10の上段に示す7つの単語と5つの文書からなる木構造を仮定し、「ミカン」と「イチゴ」の2つのノードが指定された状態でノード近接指示が行われた場合を例にとり、重みづけ処理の具体例を説明する。各ノードの出現文書の数は、「リンゴ」が3、「ミカン」と「スイカ」と「メロン」と「きゅうり」と「イチゴ」が2、「トマト」が1であるから、N=3となる。また近接対象ノードは「ミカン」と「イチゴ」の2つであるから、NC=2となり、「ミカン」と「イチゴ」の間で共通する出現文書は1つ(文書ID:13)であるから、MC=1となる。したがって、重みはW=1.5と求まる。
次に、ノード近接処理部312は、重みWを用いた重みづけ処理を実行する。本実施
形態では、近接対象ノードの共通文書の文書特徴スコアに重みWを乗じる、という処理を行う。上記例のように、近接対象ノードとして「ミカン」と「イチゴ」が選ばれている場合、「ミカン」と「イチゴ」の共通文書は文書ID「13」の文書1つであるから、重みづけ処理の結果、文書ID「13」の文書特徴スコアのみが0.8→1.2(=0.8×1.5)のように調整される。そして、調整後の文書特徴スコアを用いて、すべての単語の分類度ベクトルが再計算され、各単語の分類度ベクトルが図10の下段のように変化する。
このような重みづけ処理によって、近接対象ノードとして選ばれた単語である「ミカン」と「イチゴ」の分類度ベクトルだけでなく、近接対象ノードの共通文書に出現する他の単語「リンゴ」、「スイカ」、「メロン」の分類度ベクトルも変化することがわかる。その結果、重みづけ処理の前と後で、単語同士の類似関係が変化する。
図14の説明に戻る。以上のように重みづけ処理を終えると、ステップS19の処理に進む。ステップS19では、ノード近接処理部312が、ステップS17で計算した重みの値と、近接対象ノードの情報とを、重みづけ履歴312aに記録する。
図15は、重みづけ履歴312aに格納される情報の一例を示す図である。重みづけ履歴312aは、例えば、「項番」、「ノード」および「与えた重み」が対応付けて格納される。「項番」には、何回目の重みづけであるかを示す情報が格納される。「ノード」には、近接対象ノードを特定する情報(例えば単語IDなど)が格納される。「与えた重み」には、重みの値が格納される。重みづけ履歴312aを参照することで、各ノードの分類度又は分類度ベクトルを過去の状態(重みづけ処理前の状態)に戻すことも可能である。
その後、処理は図12のステップS9に戻され、調整後の分類度又は分類度ベクトルを用いて木構造の再構築が行われる。その結果、近接対象ノードとして選ばれた単語同士の距離が近づくようにノードの配置が変化した木構造が得られる。また、前述のように、共通文書に出現する他の単語についても分類度又は分類度ベクトルが変化するため、木構造全体のバランスやノードの配置が大きく変わる可能性もある。そのような木構造を見ることにより、単語同士の関係や文書同士の関連性・類似性について新たな発見や気づきが得られることも期待できる。
図16は、重みづけによってノードの配置が変更される様子の一例を示す図である。図16(A)は変更前の状態の一例であり、図16(B)は、変更後の状態の一例である。図16(A)の木構造において、ユーザが「ミカン」と「イチゴ」を指定してノード近接指示を行った結果、「ミカン」と「イチゴ」の間の特徴量(分類度又は分類度ベクトル)の差が小さくなり、図16(B)のように、「ミカン」の子ノードとして「イチゴ」が配置されている。このように、関係性が高い2つの単語(又は、関係性が高くあるべきとユーザが考える2つの単語)が木構造上で離れている場合などに、それらを指定しノード近接指示を行うだけで、ユーザの意図が反映された木構造を簡単に再構成することができる。また、前述のように、近接対象ノードとして指定された単語以外の単語(「リンゴ」、「メロン」、「スイカ」)の分類度や分類度ベクトルも変化した結果、図16(B)の例では、「リンゴ」の子ノードに「メロン」が、さらにその子ノードに「スイカ」が配置されている。このような木構造を見ることで、ユーザは「リンゴ」と「メロン」と「スイカ」の間の関連性を見出すことができる。なお、重みづけが変更された場合に、係数表示部313が当該ノードに変更後の重みや分類度などを表示してもよい。
なお、上記実施形態では、二分木を例示したが、木構造としては、三分木またはそれ以上に分岐する木構造であってもよい。この場合、ユーザがキーボード220等の入力手段を介して、表示データ生成部310に対して分岐する分岐数を指定すればよい。例えば、
木構造を三分木とする場合、分岐数として「3」が指定されればよい。
上記実施形態では、基点ノードが「空」の場合に、基点の下に接続するノードとして、分類度又は分類度ベクトルの大きさ(以下まとめて「分類度」と記す)が最大の単語と最小の単語のペアを選択し(ステップS9参照)、それ以降追加するノードとして、残りの単語の中から、分類度が最大の単語と最小の単語のペアを選択することとした(ステップS11参照)。このような選択手順は、木構造が二分木であり、かつ、分類度が「当該単語があるクラスに属するか否か」を表す指標である場合に好適な例である。もし、木構造が二分木であり、かつ、分類度が「当該単語が第1のクラスに属するか第2のクラスに属するか」を表す指標である場合は、ステップS9やS11において、第1のクラスへの分類度が最大の単語と第2のクラスへの分類度が最大の単語の2つを選択すればよい。また、木構造が三分木であり、かつ、分類度が「当該単語が第1のクラスに属するか第2のクラスに属するか第3のクラスに属するか」を表す指標である場合は、ステップS9やS11において、第1のクラスへの分類度が最大の単語と第2のクラスへの分類度が最大の単語と第3のクラスへの分類度が最大の単語の3つを選択すればよい。分岐数が3より多い場合も同様である。
<第1実施形態の利点>
以上述べた第1実施形態による利点をまとめると次のとおりである。上述した木構造では、単語の特徴を表す特徴量(分類度又は分類度ベクトル)の差に基づいて各ノードの配置が決定されているので、各ノード(単語)の配置や接続関係などから、検索結果である複数の抽出文書に出現する単語の傾向などを容易に把握できる。また、上記実施形態では、単語の特徴を、単語そのものではなく、当該単語を使用している文書(テキスト、文脈)の特徴である文書特徴スコアを使って表現している。それゆえ、木構造における各ノードの配置や接続関係は、文書同士の関連性・類似性を反映したものとなる。したがって、上述した木構造を用いることにより、複数の文書について、文書同士の関連性・類似性や文書に登場する単語同士の関係を適切かつ直感的に表現することができる。しかも、木構造におけるノード間の関連性の強さをユーザ自身が容易に変更することができる。よって、ユーザによる情報探索作業を支援することが可能となる。
<第2実施形態>
図17を参照して、本発明の第2実施形態について説明する。第2実施形態では、単語分類器(文字列の分類器)を用いて単語から直接的に単語の特徴量である分類度を求める。
図17に示すように、第2実施形態に係る情報処理装置100は、単語分類器401、単語特徴モデル401a、及び、学習処理部402を備える。それ以外の構成は第1実施形態のものと同じである。
単語分類器401は、入力される単語をn個のクラス(nは2以上の整数)に分類する分類器である。単語分類器401は、例えば、予め用意された単語特徴モデル401aを用いて入力単語のスコアを計算し出力する。このスコアは、入力単語が或るクラスに属する確率又は尤度を表す値であって、連続値をとる(したがって、単語分類器401は回帰器と呼んでもよい。)。このような単語分類器401は、多数の教師データを用いた機械学習によって作成してもよいし、人が設計したルールやモデルに基づいて作成してもよい。機械学習の方法は何でもよく、例えば、サーポートベクターマシン(SVM)、ベイジアンネットワーク、ニューラルネットワーク(NN)、ディープニューラルネットワーク(DNN)などを利用できる。本実施形態ではSVMを用いる。
機械学習の場合に、文字列が出現する複数の文書のデータを教師データとして用いても
よい。文字列と文字列特徴量との対応関係を学習するための教師データとして、当該文字列が出現する文書のデータを利用することにより、第1実施形態の方法で求められる特徴量(分類度)と同じような特性をもつ特徴量を得ることができる。例えば、文字列を「果物」か「野菜」かの2つのカテゴリに分類する単語分類器を学習する場合であれば、「果物」について記載されている多数の文書データ、及び、「野菜」について記載されている多数の文書データを、教師データとして用いる。そして、教師データ(つまり「果物」カテゴリの文書群と「野菜」カテゴリの文書群)から抽出した文字列(例えば「リンゴ」、「ミカン」など)が各カテゴリの文書群に出現する割合に応じて、当該文字列を各カテゴリに分類することの確からしさ(つまり、「果物らしさ」、「野菜らしさ」)を学習する。このような単語分類器を用いると、例えば、「リンゴ」という文字列を入力したときに、「果物:0.98、野菜:0.31」というような出力スコアが得られる。
また、上記以外の方法として、WordNetなどのシソーラスを用いて単語同士の意味的距離(概念距離)を計算してもよい。
なお、単語分類器401の出力スコアは、単語が表す文字列の特徴を数値化したものであり、「文字列特徴量」の一例である。また単語分類器401は、「文字列特徴算出部」の一例である。
第1実施形態では、ノード近接指示が行われると、近接対象ノードの共通文書に対する重みづけ処理が実行されたが、第2実施形態では、単語の特徴量(分類度)の求め方が第1実施形態とは異なるため、重みづけ処理の代わりに、単語分類器401の再学習を行う。すなわち、近接対象ノードとして指定された2つ以上の単語について、より近い値の分類度が出力されるように、単語分類器401のモデルを再学習するのである。
例えば、図4に示す7つの単語と5つの文書からなる木構造を仮定し、「ミカン」と「イチゴ」の2つのノードが指定された状態でノード近接指示が行われた場合を例にとり、再学習処理の具体例を説明する。「ミカン」と「イチゴ」の間の共通文書は文書ID「13」の文書1つである。この共通文書の数を増やした教師データを与えて再学習を行えば、「ミカン」の果物らしさ及び「イチゴ」の果物らしさがともに高まるため、結果として、「ミカン」と「イチゴ」についてより近い値の分類度を出力するような分類器を得ることができる。
なお、共通する出現文書の数を増やす方法については特に限定されない。簡単な方法としては、文書ID「13」の文書の複製を生成し、それに新たな文書IDを付与し、教師データに追加すればよい。この方法では、複製する数を増やすだけで簡単に教師データの増加が可能である。この場合に、例えば、第1実施形態で用いた式(2)を使ってWの値を計算し、Wの値を丸めて(切り上げ、切り捨て、又は四捨五入など)整数値Iを求め、その値Iを複製する数とするとよい。このようにWに基づき複製数を決定することにより、教師データ全体のバランスを調整することができる。
<第2実施形態の利点>
以上述べた第2実施形態の構成によっても、第1実施形態と同様の作用効果を得ることができる。
<コンピュータが読み取り可能な記録媒体>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させる情報処理プログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、Compact Disc Read Only Memory(CD-ROM)、Compact Disc - Recordable(CD-R)、Compact Disc - ReWriterable(CD-RW)、Digital Versatile Disc(DVD)、ブ
ルーレイディスク(BD)、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
100・・・情報処理装置
210・・・ディスプレイ
220・・・キーボード
230・・・マウス
3031・・・文書ベクトル
3041・・・単語ベクトル
3081・・・分類度ベクトル

Claims (6)

  1. データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出する検索部と、
    前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出する解析部と、
    前記複数の抽出文字列の各々について、当該抽出文字列の特徴を表す文字列特徴量を求める文字列特徴算出部と、
    前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力する出力部と、
    前記木構造において2以上のノードを指定して所定の操作が行われると、少なくとも指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に影響を与える所定の処理を実行した後、前記木構造の再構築を行う処理部と、
    を有する情報処理装置。
  2. 前記複数の抽出文書の各々について、当該文書が有する特徴を数値化した文書特徴スコアを算出する文書特徴算出部をさらに備え、
    前記文字列特徴算出部は、前記複数の抽出文字列の各々について、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアから当該抽出文字列の文字列特徴量を求める、
    請求項1に記載の情報処理装置。
  3. 前記所定の処理は、指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に対して重みづけを行う処理である、
    請求項1又は2に記載の情報処理装置。
  4. 前記文字列特徴算出部は、入力文字列をn個のクラス(nは2以上の整数)に分類する文字列分類器から構成され、前記抽出文字列を前記文字列分類器に入力したときの出力ス
    コアを当該抽出文字列の文字列特徴量とする、
    請求項1に記載の情報処理装置。
  5. 前記所定の処理は、指定された前記2以上のノードのそれぞれに対応付けられている2以上の文字列に共通に関係する教師データを追加した上で、前記文字列分類器の再学習を行う処理である、
    請求項4に記載の情報処理装置。
  6. データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出するステップと、
    前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出するステップと、
    前記複数の抽出文字列の各々について、当該抽出文字列の特徴を表す文字列特徴量を求めるステップと、
    前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力するステップと、
    前記木構造において2以上のノードを指定して所定の操作が行われると、少なくとも指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に影響を与える所定の処理を実行した後、前記木構造の再構築を行うステップと、
    をコンピュータに実行させるためのプログラム。
JP2018189532A 2018-10-04 2018-10-04 情報処理装置およびプログラム Active JP7170487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018189532A JP7170487B2 (ja) 2018-10-04 2018-10-04 情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018189532A JP7170487B2 (ja) 2018-10-04 2018-10-04 情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2020060816A JP2020060816A (ja) 2020-04-16
JP7170487B2 true JP7170487B2 (ja) 2022-11-14

Family

ID=70218978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018189532A Active JP7170487B2 (ja) 2018-10-04 2018-10-04 情報処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP7170487B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249935A (ja) 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体
CN101281530A (zh) 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法
JP2010231434A (ja) 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2012141955A (ja) 2010-12-30 2012-07-26 Internatl Business Mach Corp <Ibm> 平坦データの階層情報を取得する方法及び装置
US20160026709A1 (en) 2014-07-28 2016-01-28 Adp, Llc Word Cloud Candidate Management System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249935A (ja) 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体
CN101281530A (zh) 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法
JP2010231434A (ja) 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2012141955A (ja) 2010-12-30 2012-07-26 Internatl Business Mach Corp <Ibm> 平坦データの階層情報を取得する方法及び装置
US20160026709A1 (en) 2014-07-28 2016-01-28 Adp, Llc Word Cloud Candidate Management System

Also Published As

Publication number Publication date
JP2020060816A (ja) 2020-04-16

Similar Documents

Publication Publication Date Title
US8918348B2 (en) Web-scale entity relationship extraction
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
US11625537B2 (en) Analysis of theme coverage of documents
JP7203554B2 (ja) 情報処理装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
WO2019245886A1 (en) Topic set refinement
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
Salih et al. Semantic Document Clustering using K-means algorithm and Ward's Method
Palliyali et al. Comparative study of extractive text summarization techniques
JP7170487B2 (ja) 情報処理装置およびプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
US9886488B2 (en) Conceptual document analysis and characterization
Pasarate et al. Concept based document clustering using K prototype Algorithm
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Shen et al. A hybrid model combining formulae with keywords for mathematical information retrieval
Pitichotchokphokhin et al. Discover underlying topics in Thai news articles: a comparative study of probabilistic and matrix factorization approaches
Mukherjee et al. Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach
Al Dakhil et al. Reviews Analysis of Apple Store Applications Using Supervised Machine Learning
Lahbari et al. Exploring Sentence Embedding Representation for Arabic Question/Answering
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark
Şimşek et al. Sentiment Analysis of Twitter Data of Hepsiburada E-commerce Site Customers with Natural Language Processing
Alanzi et al. Query-Focused Multi-document Summarization Survey
Wachowiak Introduction to Text Analysis In R
Deforche et al. A Hierarchical Orthographic Similarity Measure for Interconnected Texts Represented by Graphs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221101

R150 Certificate of patent or registration of utility model

Ref document number: 7170487

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150