JP2019164504A - 計算機システム及び文章データ管理方法 - Google Patents

計算機システム及び文章データ管理方法 Download PDF

Info

Publication number
JP2019164504A
JP2019164504A JP2018051370A JP2018051370A JP2019164504A JP 2019164504 A JP2019164504 A JP 2019164504A JP 2018051370 A JP2018051370 A JP 2018051370A JP 2018051370 A JP2018051370 A JP 2018051370A JP 2019164504 A JP2019164504 A JP 2019164504A
Authority
JP
Japan
Prior art keywords
topic
domain
target domain
text data
sentence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018051370A
Other languages
English (en)
Inventor
森 一
Hajime Mori
一 森
宇都木 契
Chigiri Utsugi
契 宇都木
清弘 小原
Kiyohiro Obara
清弘 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018051370A priority Critical patent/JP2019164504A/ja
Publication of JP2019164504A publication Critical patent/JP2019164504A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文章データの検索に用いるトピックを効率的に生成する。【解決手段】文章データを格納するデータベースを管理する計算機を備える計算機システムであって、計算機は、検索キーとして用いられるトピック及びトピックに分類される単語の対応関係をドメイン毎に管理するトピック管理情報を管理し、ターゲットドメインへの新規トピックの登録契機を検出した場合、ターゲットドメイン以外のドメインの前記トピックの中から登録候補のトピックである仮登録トピックを選択し、トピック及び仮登録トピックを検索キーとして用いて関連文章データを検索するための検索処理を実行し、検索処理における仮登録トピックの使用実績に基づいて、ターゲットドメインのトピックとして登録する仮登録トピックを選択し、前記トピック管理情報に追加する。【選択図】図1

Description

本発明は、文章データを管理し、任意の文章データに関連する文章データを検索するサービスを提供する計算機システムに関する。
業務システムでは、様々な文章が文章データとしてデータベースに格納されている。業務内容又は保存する文章によっては、ユーザは、データベースに文章データを格納する時に関連する文章データを確認する必要がある。したがって、ユーザの目的等に沿って、必要な文章データを提示する技術が求められている。
従来技術として特許文献1に記載の技術が知られている。特許文献1には「システムの開発に必要な設計項目を抽出するためのガイド用語抽出装置であって、システムの開発に関連する検索語が入力されると、予め記憶された検索語と、前記システムに関連する複数のガイドラインのガイド用語とを意味の観点から分類する予め記憶された索引の情報に基づいて、前記ガイド用語を抽出するガイド用語抽出部を備えた」ことが記載されている。
特開2015−118676号公報
特許文献1に記載されているように、文章データを扱うシステムでは、単語のグループであるトピックを検索キーとして用いてユーザに提示する文章データを検索する方法が知られている。
トピックはコーパスに基づいて生成される。データベースに格納される文章データ及びシステムの状態は時々刻々と変化する。そのため、コーパスに基づいて生成されたトピックをそのまま用いても適切な文章データを検索できない。したがって、システムの状態等を反映した学習処理によって自動的にトピックが更新され、又は手動でトピックが更新される。
一方、データベースに格納される文章データに基づいて生成されるトピックは、データベースに格納される文章データの内容に応じて異なる。特定の業種及び分野等に特化した文章データを格納するデータベースの場合、データベースに格納される文章データの内容、例えば、専門用語及び特徴的な用語を反映したトピックが生成される。したがって、当該トピックを用いることによって、前述したデータベースに対する特定の内容を含む文章データの検索精度が向上する。
本明細書では、文章データの管理単位となるグループをドメインと定義する。例えば、技術分野、部署、会社、及び国がドメインに対応する。
ドメイン単位で文章データ(データベース)が管理されていないシステムでは、複数のドメインで共通する用語及び一般的な用語がトピックとして生成され、特定のドメインを特徴づけるトピックはあまり生成されない。そのため、特定のドメインに属する文章データの検索精度が低い。
特定のドメインに属する文章データの検索精度を向上させるための検索システムでは、ドメイン単位で文章データが管理され、また、ドメイン毎に専門用語の辞書が管理される。当該検索システムでは、特定のドメインに関連するコーパスから生成されたトピックを用いた文章データの検索が行われる。
ドメインのトピックを生成する場合、ドメインの専門用語の辞書及びドメインに属する文章データ等のトピックを生成するためのデータ(コーパス)が必要となる。当該データの質及び数が十分でない場合、ドメインを特徴づける専門用語以外の用語から構成されるトピックが生成される。そのため、ドメインに属する文章データを検索するための検索キーとして当該トピックを用いても検索精度は向上しない。
また、ユーザが検索精度の向上させるためにトピックを手動で設定又は更新する場合、ユーザの負担が大きく、また、作業時間がかかる。
本発明は、ドメイン単位で文章データを管理するシステムにおいて、ドメインに属する文章データを高い精度で検索するためのトピックを登録するシステム及び方法を提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文章データを格納するデータベース及び前記データベースを管理する計算機を備える計算機システムであって、前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、前記記憶装置は、前記文章データを特徴づける単語であって、任意の文章データと関連する関連文章データを検索するための検索キーとして用いられるトピック及び前記トピックに分類される単語の対応関係を、前記文章データの管理単位であるドメイン毎に管理するトピック管理情報を格納し、前記演算装置は、ターゲットドメインへの新規トピックの登録契機を検出した場合、前記ターゲットドメイン以外のドメインの前記トピックの中から登録候補のトピックである仮登録トピックを選択し、前記トピック及び前記仮登録トピックを前記検索キーとして用いて前記関連文章データを検索するための検索処理を実行し、前記検索処理における前記仮登録トピックの使用実績に基づいて、前記ターゲットドメインのトピックとして登録する前記仮登録トピックを選択し、前記仮登録トピックの情報を前記トピック管理情報に追加する。
本発明の一形態によれば、自動的かつ効率的に、関連文章データの検索精度を向上させるためのトピックを登録できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機システムの構成の一例を示す図である。 実施例1のドメイン管理情報のデータ構造の一例を示す図である。 実施例1の文章データ管理情報のデータ構造の一例を示す図である。 実施例1の辞書管理情報のデータ構造の一例を示す図である。 実施例1のトピック管理情報のデータ構造の一例を示す図である。 実施例1の仮登録トピック管理情報のデータ構造の一例を示す図である。 実施例1の計算機が実行する仮登録トピック登録処理の一例を説明するフローチャートである。 実施例1の計算機が実行する運用処理の一例を説明するフローチャートである。 実施例1のユーザ端末に表示されるユーザ入力画面の一例を示す図である。 実施例1のユーザ端末に表示されるトピック操作画面の一例を示す図である。 実施例1の計算機によって表示される検索結果表示画面の一例を示す図である。 実施例1の計算機が実行する解析処理の一例を説明するフローチャートである。 実施例1の文章データ管理モジュールが実行する文章データ検索処理の一例を説明するフローチャートである。 実施例1の計算機が実行する登録トピック決定処理の一例を説明するフローチャートである。 実施例2の計算機が実行する仮登録トピック登録処理の一例を説明するフローチャートである。 実施例3の文章データ管理情報のデータ構造の一例を示す図である。 実施例3の計算機によって表示される検索結果表示画面の一例を示す図である。
以下、本発明に係る実施例を添付図面を用いて説明する。各図において共通の構成については同一の参照符号が付されている。
図1は、実施例1の計算機システムの構成の一例を示す図である。
計算機システムは、計算機100、複数のデータベース101、及びユーザ端末102から構成される。
計算機100は、一つ以上の文章データ105が格納されるデータベース101を管理する。また、計算機100は、ユーザから文章データ又は単語が入力された場合、文章データ又は単語に関連する文章データ105を提示する。
以下の説明では、ユーザが入力した文章データ又は単語を入力情報と記載し、また、ユーザが入力した文章データ又は単語に関連する文章データを関連文章データと記載する。
ここで本明細書の用語の扱いについて説明する。「文章」は、一つ以上の単語から構成される文がまとまったものを表す。「文章データ」は、データ化された文章を表す。「トピック」は、性質が共通する単語、又は、意味若しくは観点が類似する単語の集合であって、文章データの内容等を示す一種の単語として扱われる。関連文章データを検索するための検索キーとしてトピックが用いられる。「ドメイン」は、文章データ105の管理単位となるグループを表す。組織、管理目的、使用目的、並びに文章データの内容及び属性等に応じて様々なドメインを設定できる。例えば、国、会社、及び部署をドメインとして設定してもよいし、また、技術分野及び業種をドメインとして設定してもよい。なお、文章データは複数のドメインに属してもよい。
データベース101は、文章データ105を格納する。データベース101は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等のストレージ装置を用いて実現してもよいし、複数のストレージ装置を有するストレージシステムを用いて実現してもよい。
実施例1では、実施例1のデータベース101はドメイン毎に分けて管理される。すなわち、データベース101に格納された文章データ105は同一のドメインに属する。
なお、ドメインの区分はデータベースの区分と一致する必要はない。例えば、一つのデータベース101に異なるドメインに属する文章データ105が格納された管理方式でもよい。
計算機100は、プロセッサ111、メモリ112、及びネットワークインタフェース113を有する。
プロセッサ111は、メモリ112に格納されるプログラムを実行する。プロセッサ111がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ111が当該モジュールを実現するプログラムを実行していることを示す。
メモリ112は、プロセッサ111が実行するプログラム及び各種情報を格納する。また、メモリ112は、プログラムが一時的に使用するワークエリアを含む。
ネットワークインタフェース113は、ネットワークを介して外部装置と接続するインタフェースである。実施例1では、計算機100は、ネットワークインタフェース113を用いてデータベース101及びユーザ端末102と接続する。なお、計算機100は、HBA(Host Bus Adapter)を有してもよい。また、計算機100は、キーボード及びマウス等の入力装置、並びに、ディスプレイ等の出力装置と接続するI/Oインタフェースを有してもよい。
実施例1のメモリ112は、文章データ管理モジュール121を実現するプログラムを格納する。また、メモリ112は、ドメイン管理情報122、文章データ管理情報123、辞書管理情報124、トピック管理情報125、及び仮登録トピック管理情報126を格納する。
文章データ管理モジュール121は、データベース101に格納された文章データ105を管理し、また、データベース101に対する文章データ105の登録、読み出し、及び削除等の操作を制御する。また、文章データ管理モジュール121は、ユーザから入力情報を受け付けた場合、入力情報の解析結果及びユーザ操作に基づいて、関連文章データ105を提示する。このとき、文章データ管理モジュール121は、入力情報の解析結果に基づいて検索キーとなるトピックを選択し、ユーザにトピックを提示する。新規文章データ105の登録に伴って、新規文章データが入力情報として入力された場合、文章データ管理モジュール121は、データベース101に新規文章データを格納する。
実施例1では、ドメイン及びデータベース101が一対一に対応づけられているため、文章データ管理モジュール121は、ドメインを特定するための情報に基づいて処理するデータベース101(ドメイン)を選択できる。例えば、ユーザが対象のデータベース101を選択してもよいし、ユーザのアカウント情報等に基づいて自動的にデータベース101が選択されてもよい。このとき、複数のドメインが対象のドメインとして選択されてもよい。なお、前述した方法は一例であってこれに限定されない。
以下の説明では、ユーザから入力情報を受け付け、関連文章データを提示する一連の処理を関連文章検索サービスと記載する。
文章データ管理モジュール121は、入出力モジュール131、トピック管理モジュール132、ドメイン管理モジュール133、及び検索エンジン134を含む。
入出力モジュール131は、データの入出力を制御する。実施例1では、入出力モジュール131は、新規文章データの登録要求等を含む各種要求を受け付け、また、関連文章データ105等を表示するための表示データを出力する。
トピック管理モジュール132は、入力情報の解析結果に基づいて関連文章データ105の検索に用いるトピックを選択し、入出力モジュール131を介して選択されたトピックをユーザに提示する。ユーザは、入出力モジュール131を介して提示されたトピックを評価し、また、トピックの生成、変更、及び削除等の操作を行う。トピック管理モジュール132は、ユーザの操作に基づいてトピック管理情報125を更新する。また、トピック管理モジュール132は、ユーザの操作を反映したトピックを検索エンジン134に出力する。
ドメイン管理モジュール133は、ドメイン及びデータベース101の対応関係等を管理する。また、ドメイン管理モジュール133は、後述するドメインの専門用語辞書を管理する。ドメイン管理モジュール133は、任意のドメインのトピックを設定する場合、他のドメインのトピックから流用するトピックを選択する。
検索エンジン134は、トピック管理モジュール132から入力されたトピックを用いて関連文章データ105を検索する。検索エンジン134は、関連文章データ105の検索結果等を表示するための表示データを入出力モジュール131に出力する。
ドメイン管理情報122は、ドメイン及び当該ドメインに属する文章データ105を格納するデータベース101の対応関係を管理するための情報である。すなわち、ドメイン管理情報122は、ドメイン及び当該ドメインに属する文章データ105の対応関係を管理するための情報である。なお、ドメイン管理情報122及び文章データ管理情報123を一つの情報として管理してもよい。ドメイン管理情報122の詳細は図2を用いて説明する。
文章データ管理情報123は、文章データ105及びトピックの対応関係を管理するための情報である。文章データ管理情報123の詳細は図3を用いて説明する。
辞書管理情報124は、ドメインの専門用語辞書を管理するための情報である。専門用語辞書は、ドメインで利用される専門用語を登録した辞書である。なお、図示していないが複数のドメインで共通して利用される一般用語を登録した辞書は、一般用語辞書として管理される。辞書管理情報124の詳細は図4を用いて説明する。
トピック管理情報125は、トピックを管理するための情報である。トピック管理情報125の詳細は図5を用いて説明する。
仮登録トピック管理情報126は、ドメイン管理モジュール133によって選択されたトピックを一時的に格納するための情報である。他のドメインのトピックから選択されたトピックは、ターゲットドメインで有用なトピックとは限らない。そのため、文章データ管理モジュール121は、選択されたトピックを登録候補のトピックとして一時的に仮登録トピック管理情報126に登録し、使用実績等に基づいて追加先のドメインで有用なトピックであるか否かを判定する。仮登録トピック管理情報126の詳細は図6を用いて説明する。
ユーザ端末102は、ユーザが操作する端末である。ユーザ端末102は、計算機100と同様にプロセッサ、メモリ、及びネットワークインタフェースを有する。ユーザ端末102は、計算機100が出力した表示データに基づいて画面を表示する。また、ユーザ端末102は、画面を介して計算機100にデータを入力し、また、ユーザに処理結果等を提示する。実施例1では、ユーザ入力画面900(図9参照)、トピック操作画面1000(図10参照)、及び検索結果表示画面1100(図11参照)がユーザ端末102に表示される。
ユーザ入力画面900は、データベース101に格納する文章データ105を指定するための画面である。ユーザ入力画面900の詳細は図9を用いて説明する。トピック操作画面1000は、検索用トピックの選択及びトピックの更新等に使用する画面である。トピック操作画面1000の詳細は図10を用いて説明する。検索結果表示画面1100は、関連文章データ105を表示する画面である。検索結果表示画面1100の詳細は図11を用いて説明する。
図2は、実施例1のドメイン管理情報122のデータ構造の一例を示す図である。
ドメイン管理情報122は、ドメインID201、データベースID202、ユーザ数203、トピック数204、及び単語数205から構成されるエントリを含む。一つのエントリは一つのドメインを表す。なお、エントリの構造は一例であってこれに限定されない。前述したフィールドの一部のフィールドを含まなくてもよいし、また、他のフィールドを含んでもよい。
ドメインID201は、ドメイン管理情報122のエントリを一意に識別するための識別情報を格納するフィールドである。
データベースID202は、データベース101を一意に識別するための識別情報を格納するフィールドである。
ユーザ数203は、ドメインのユーザとして登録されているユーザの数を格納するフィールドである。
トピック数204は、ドメインのトピックの数を格納するフィールドである。単語数205は、ドメインの専門用語辞書に登録される単語の数を格納するフィールドである。
新規ドメインの登録時にドメイン管理情報122にエントリが登録される。また、ユーザ数203、トピック数204、及び単語数205は、システムの運用状態に合わせて更新される。
図3は、実施例1の文章データ管理情報123のデータ構造の一例を示す図である。
文章データ管理情報123は、データベースID301、文章データID302、及びトピックID303から構成されるエントリを含む。一つのエントリは、一つのデータベース101を表す。なお、エントリの構造は一例であってこれに限定されない。前述したフィールドの一部のフィールドを含まなくてもよいし、また、他のフィールドを含んでもよい。例えば、文章データ105の名称及びサイズ等の情報を格納するフィールドを含んでもよい。
データベースID301は、データベース101を一意に識別するための識別情報を格納するフィールドである。実施例1では、文章データ105及びトピックの対応関係はデータベース101単位で管理される。
文章データID302は、文章データ105を一意に識別するための識別情報を格納するフィールドである。
トピックID303は、文章データ105に含まれる単語等から生成されたトピックを格納するフィールドである。トピックID303には、トピックの識別情報が格納される。
実施例1では、文章データ105及びトピックには、システム全体で重複しないように識別情報が設定されるものとする。なお、異なるデータベース101に格納される文章データ105及びデータベース101のトピックの識別情報は重複してもよい。
文章データ管理情報123は、データベース101の構築時に設定されるものとする。なお、データベースの追加処理、データベースの更新処理、及びデータベースの削除処理に基づいて文章データ管理情報123は更新される。
なお、異なるドメインに属する文章データ105が同一のデータベース101に格納される場合、計算機100は、文章データ管理情報123とは別に、文章データ105が属するドメインを管理するための情報を保持すればよい。例えば、ドメインの識別情報を格納するフィールド及び文章データ105の識別情報を格納するフィールドから構成されるエントリを含む情報が考えられる。
図4は、実施例1の辞書管理情報124のデータ構造の一例を示す図である。
辞書管理情報124は、ドメインID401、単語ID402、単語403、提供元404から構成されるエントリを含む。一つのエントリが一つのドメインの専門用語辞書を表す。なお、エントリの構造は一例であってこれに限定されない。前述したフィールドの一部のフィールドを含まなくてもよいし、また、他のフィールドを含んでもよい。例えば、単語の説明及び単語の品詞等を格納するフィールドを含んでもよい。
ドメインID401は、ドメインID201と同一のフィールドである。
単語ID402は、ドメインに属する文章データ105に含まれる単語であって、専門用語等、ドメインを特徴づける単語の識別情報を格納するフィールドである。
単語403は、単語を格納するフィールドである。
提供元404は、単語の提供元を示す情報を格納するフィールドである。予め入力された単語集に含まれる単語の場合、提供元404は空欄となる。他のドメインから流用した単語である場合、提供元404には他のドメインの識別情報及び単語の識別情報の組が格納され、ユーザによって設定された単語である場合、提供元404にはユーザの識別情報が格納される。
辞書管理情報124は、新規ドメインの登録時に設定されるものとする。なお、ドメインに属する文章データ105の追加処理、更新処理、及び削除処理に基づいて辞書管理情報124は更新される。また後述する仮登録トピック登録処理に基づいて辞書管理情報124が更新される。
図5は、実施例1のトピック管理情報125のデータ構造の一例を示す図である。
トピック管理情報125は、ドメインID501、トピックID502、単語503、評価値504、検索回数505、利用履歴506、及び生成元507から構成されるエントリを含む。一つのエントリが一つのドメインを表す。なお、エントリの構造は一例であってこれに限定されない。前述したフィールドの一部のフィールドを含まなくてもよいし、また、他のフィールドを含んでもよい。例えば、語の説明及び語の品詞等を格納するフィールドを含んでもよい。
ドメインID501は、ドメインID201と同一のフィールドである。
トピックID502は、ドメインのトピックを一意に識別するための識別情報を格納するフィールドである。
単語503は、トピックを構成する単語を格納するフィールドである。トピックは一つ以上の単語から構成される。
評価値504は、トピックに対するユーザの評価を示す値を格納するフィールドである。
検索回数505は、検索キーとしてトピックが利用された回数を格納するフィールドである。
利用履歴506は、トピックが他のドメインによって流用されたか否かを示す情報を格納するフィールドである。トピックが他のドメインによって流用されていない場合、利用履歴506は空欄となり、トピックが他のドメインによって流用された場合、利用履歴506には、他のドメインの識別情報及び流用された回数の組が格納される。生成元507は、他のドメインから流用したトピックであるか否かを示す情報を格納するフィールドである。他のドメインから流用したトピックでない場合、生成元507は空欄となり、他のドメインから流用したトピックである場合、生成元507には、他のドメインの識別情報及びトピックの識別情報の組が格納される。
文章データ管理モジュール121は、予め、各ドメインのコーパスに基づいてトピックを生成する。例えば、文章データ105そのものがコーパスとして用いられる。
なお、文章データ管理モジュール121は、トピックを生成する場合、辞書管理情報124に格納されるドメインの専門用語辞書を用いてもよい。また、文章データ管理モジュール121は、トピックを生成する場合、特定のドメインに属するデータベース101に格納される文章データ105のモデルを用いてもよい。
なお、コーパス等に基づいてトピックを生成及び更新する方法は公知の技術であるため、詳細な説明は省略する。コーパス等に基づいてトピックを生成及び更新するタイミングとしては、ドメインに関する構成が変化するタイミングが考えられる。例えば、ドメインを追加する場合、一定数の文章データ105が変更された場合、文章データの追加数及び削除数の少なくともいずれかが閾値より大きい場合、ドメインの専門用語辞書に対する語が一定数変更された場合、ドメインの専門用語辞書に対する単語の追加数及び削除数が閾値より大きい場合等が考えられる。また、周期的に実行されてもよい。
図6は、実施例1の仮登録トピック管理情報126のデータ構造の一例を示す図である。
仮登録トピック管理情報126は、ドメインID601、仮登録トピックID602、単語603、評価値604、検索回数605、生成元606、及び期間607から構成されるエントリを含む。一つのエントリが一つのドメインを表す。
ドメインID601は、ドメインID201と同一のフィールドである。
仮登録トピックID602は、後述する仮登録トピック登録処理に基づいて選択されたトピックを一意に識別するための識別情報を格納するフィールドである。仮登録トピックID602には、ドメインID601に対応するドメインにおいて一意な識別情報が格納される。以下の説明では、仮登録トピック登録処理に基づいて選択されたトピック、すなわち、登録候補となるトピックを仮登録トピックと記載する。
単語603は、仮登録トピックを構成する単語を格納するフィールドである。
評価値604は、仮登録トピックに対するユーザの評価を示す値を格納するフィールドである。評価値604には、評価値504と同一の値が設定される。
検索回数605は、検索キーとして仮登録トピックが利用された回数を格納するフィールドである。
生成元606は、仮登録トピックの生成元の情報を格納するフィールドである。生成元606には、仮登録トピックを選択した他のドメインの識別情報及びトピックの識別情報の組が格納される。
期間607は、仮登録トピック管理情報126に仮登録トピックが登録されてからの経過時間を格納するフィールドである。期間607の値は任意のタイミングで更新される。なお、期間607には、仮登録トピック管理情報126から仮登録トピックを削除するタイミングを制御できる情報が格納されればよい。したがって、経過時間の代わりに検索回数及び利用したユーザ数の最大値を設定してもよい。
図7は、実施例1の計算機100が実行する仮登録トピック登録処理の一例を説明するフローチャートである。
計算機100は、ユーザ端末102から新規ドメインの登録要求を受信した場合、仮登録トピック登録処理を開始する。
新規ドメインの登録要求には、新規ドメインに属する文章データ105を管理するデータベース101の識別情報及び新規ドメインの単語集が含まれる。なお、ユーザは新規ドメインの登録に伴って新たなデータベース101を追加する場合、新規ドメインの登録要求にデータベース101の設定情報を含めてもよい。例えば、データベース101の名称及びアクセスパス等がデータベース101の設定情報として含められる。
なお、新規ドメインの登録要求は、特定のユーザのみが行えるように設定してもよい。この場合、ログイン処理等を行って、操作権限を判別する方法が考えられる。
文章データ管理モジュール121のドメイン管理モジュール133は、新規ドメインに関する情報をドメイン管理情報122、文章データ管理情報123、及び辞書管理情報124に登録する(ステップS101)。具体的には、文章データ管理モジュール121は、以下のような処理を実行する。
新規ドメインの登録に合わせてデータベース101も追加される場合、ドメイン管理モジュール133は、文章データ管理情報123にエントリを追加する。ドメイン管理モジュール133は、追加されたエントリのデータベースID301に、新規ドメインの登録要求に含まれるデータベース101の識別情報を設定する。また、ドメイン管理モジュール133は、追加されたエントリに、データベース101に含まれる文章データ105の数だけ行を追加し、追加された行の文章データID302に文章データ105の識別情報を設定する。文章データ105の識別情報は、文章データ105のメタ情報等から取得することができる。
ドメイン管理モジュール133は、ドメイン管理情報122に新規ドメインのエントリを追加し、追加されたエントリのドメインID201に、新規ドメインの登録要求に含まれるドメインの識別情報を設定する。ドメイン管理モジュール133は、追加されたエントリのデータベースID202に、新規ドメインの登録要求に含まれるデータベース101の識別情報を設定する。
ドメイン管理モジュール133は、辞書管理情報124にエントリを追加し、追加されたエントリのドメインID401に、ドメインID201に設定された識別情報を設定する。ドメイン管理モジュール133は、ドメインの登録要求に含まれる単語集に含まれる単語の中から専門用語を抽出する。例えば、ドメイン管理モジュール133は、予め一般用語辞書を保持し、当該辞書に登録されていない単語を専門用語として抽出する。前述した以外の方法で専門用語が抽出されてもよい。ドメイン管理モジュール133は、追加されたエントリに抽出された単語の数だけ行を生成する。ドメイン管理モジュール133は、生成された各行の単語ID402に識別情報を設定し、単語403に抽出された単語を設定する。
ドメイン管理モジュール133は、追加されたエントリの単語数205に、辞書管理情報124に登録した単語の数を設定する。追加されたエントリのユーザ数203に設定する値は、ドメインの登録要求に含まれてもよいし、図示していないユーザアカウント管理情報に含めてもよい。例えば、ユーザアカウント管理情報にドメインのアクセス権を示す情報が含まれる場合、ドメイン管理モジュール133は、当該情報に基づいて、新規ドメインにアクセス可能なユーザの数をカウントできる。
以上がステップS101の処理の説明である。
次に、文章データ管理モジュール121のトピック管理モジュール132は、コーパス及び専門用語辞書に基づいてトピックを生成する(ステップS102)。コーパス及び専門用語辞書に基づくトピックの生成方法は公知の技術であるため詳細な説明は省略する。このとき、トピック管理モジュール132は、トピックの生成結果に基づいてトピック管理情報125、ドメイン管理情報122、及び文章データ管理情報123を更新する。具体的には、以下のような更新処理が実行される。
トピック管理モジュール132は、トピック管理情報125にエントリを追加し、追加されたエントリのドメインID501に新規ドメインの識別情報を設定する。トピック管理モジュール132は、追加されたエントリに、生成されたトピックの数だけ行を生成し、生成された各行のトピックID502に識別情報を設定する。また、トピック管理モジュール132は、各行の単語503にトピックに分類された単語の識別情報を設定する。
トピック管理モジュール132は、ドメイン管理情報122を参照して新規ドメインに対応するエントリを検索し、検索されたエントリのトピック数204に生成されたトピックの数を設定する。
トピック管理モジュール132は、トピックの生成結果に基づいて、文章データ管理情報123のトピックID303にトピックの識別情報を設定する。
以上がステップS102の処理の説明である。
次に、文章データ管理モジュール121のドメイン管理モジュール133は、仮登録トピック選択処理を実行する(ステップS103)。具体的には、以下のような処理が実行される。
ドメイン管理モジュール133は、仮登録トピックのリストを初期化する。ドメイン管理モジュール133は、新規ドメインと比較するドメインを選択する。以下の説明では、新規ドメインと比較するドメインを比較ドメインと記載する。ドメイン管理モジュール133は、比較ドメインのトピックの中から選択条件に合致するトピックを検索する。
選択条件に合致するトピックが検索された場合、ドメイン管理モジュール133は、検索されたトピックを仮登録トピックとして選択し、仮登録トピックのリストに検索されたトピックの情報を登録する。当該リストには検索されたトピックが対応づけられるドメインの識別情報及び当該トピックの識別情報から構成されるエントリが登録される。ドメイン管理モジュール133は、全ての比較ドメインに対して同様の処理を実行する。
実施例1では以下のような条件に基づいてトピックが検索される。
(条件1)新規ドメインの専門用語辞書に登録される単語を閾値より多く含む。
(条件2)新規ドメインのトピックに類似する。
(条件3)評価値504の値が閾値より大きい。
(条件4)検索回数505の値が閾値より大きい。
(条件1)から(条件4)のいずれか一つの条件を選択条件として設定してもよいし、任意の条件の組合せを選択条件として設定してもよい。
(条件1)は新規ドメイン及び比較ドメインの関連性に基づいて仮登録トピックを検索するための条件である。(条件2)は新規ドメインのトピック及び比較ドメインのトピックの関連性に基づいて仮登録トピックを検索するための条件である。(条件3)及び(条件4)は比較ドメインにおけるトピックの使用実績に基づいて仮登録トピックを検索するための条件である。任意のドメインにおいて頻繁に使用されるトピックは他のドメインでも有用なトピックである可能性が高いため、(条件3)及び(条件4)を条件として設定している。
なお、上記の条件は一例であってこれに限定されない。例えば、新規ドメインのトピックに類似しないことを条件として設定してもよい。
(条件1)を満たすトピックを検索する方法としては以下の通りである。ドメイン管理モジュール133は、トピック管理情報125の比較ドメインに対応するエントリを検索する。ドメイン管理モジュール133は、検索されたエントリの各行の単語503及び新規ドメインの専門用語辞書を比較し、当該専門用語辞書に登録された単語の数を計測する。ドメイン管理モジュール133は、計測値が閾値より大きいか否かを判定する。
(条件2)を満たすトピックを検索する方法は以下の通りである。ドメイン管理モジュール133は、新規ドメインのトピックを一つ選択する。ドメイン管理モジュール133は、選択されたトピックに含まれる単語及び比較ドメインの各トピックに含まれる単語を比較し、選択されたトピックに含まれる単語と同一又は類似する単語の数を閾値より多く含むトピックを検索する。
以上がステップS103の処理の説明である。
次に、文章データ管理モジュール121のドメイン管理モジュール133は、仮登録トピック選択処理の結果に基づいて、仮登録トピック管理情報126を更新する(ステップS104)。その後、文章データ管理モジュール121は仮登録トピック登録処理を終了する。具体的には、以下のような処理が実行される。
ドメイン管理モジュール133は、仮登録トピックのリストから所定の数の仮登録トピックを選択する。当該リストに登録された全ての仮登録トピックが新規ドメインのトピックとして設定された場合、既存のトピックが平均化される可能性がある。既存のトピックは、新規ドメインの特徴をよく表すトピックであるため、既存のトピックの平均化によって検索精度が低下する可能性がある。そのため、ドメイン管理モジュール133は、登録するトピックの数を制御するために、仮登録トピックのリストから所定の数の仮登録トピックを選択する。
仮登録トピックの選択方法としては、評価値504又は検索回数505の値が大きい順に仮登録トピックを選択する方法が考えられる。前述の条件の合致率が高い順に仮登録トピックを選択する方法が考えられる。また、前述した方法を組み合わせてもよい。なお、選択方法は一例であってこれに限定されない。
ドメイン管理モジュール133は、仮登録トピック管理情報126にエントリを追加し、追加されたエントリのドメインID601に新規ドメインの識別情報を設定する。ドメイン管理モジュール133は、追加されたエントリに選択された仮登録トピックの数と同数の行を生成し、各行の仮登録トピックID602に識別情報を設定する。
ドメイン管理モジュール133は、一つの行の生成元606に仮登録トピックとして選択されたトピックの情報を設定する。ドメイン管理モジュール133は、生成元606の情報に基づいてトピック管理情報125を参照し、仮登録トピックとして選択されたトピックに対応する行の単語503に設定された値を、単語603に設定する。
この時点では、評価値604は空欄であり、検索回数605及び期間607は「0」が設定される。
ドメイン管理モジュール133は、トピック管理情報125を参照して、仮登録トピックとして選択されたトピックの行を検索する。ドメイン管理モジュール133は、検索された行の利用履歴506に新規ドメインの識別情報が設定されているか否かを判定する。利用履歴506に新規ドメインの識別情報が設定されていない場合、ドメイン管理モジュール133は利用履歴506に、新規ドメインの識別情報及び「1」を設定する。利用履歴506に新規ドメインの識別情報が設定されている場合、ドメイン管理モジュール133は、利用履歴506に設定された回数に「1」を加算する。
以上がステップS104の処理の説明である。
図7では、新規ドメインを登録する場合の処理について説明したが、既存のドメインに対しても同様の処理を適用できる。具体的には、文章データ管理モジュール121は、既存のドメインの識別情報を含むトピックの追加要求を受け付けた場合、ステップS103及びステップS104の処理を実行する。このとき、指定された既存のドメインに関する関連文章データ105の検索処理は一時的に停止される。
実施例1の計算機100は、新規ドメインの登録要求の受信及びトピックの追加要求の受信等、ドメインへの新規トピックの登録契機を検出した場合、ステップS103及びステップS104の処理を実行する。
図8は、実施例1の計算機100が実行する運用処理の一例を説明するフローチャートである。図9は、実施例1のユーザ端末102に表示されるユーザ入力画面900の一例を示す図である。図10は、実施例1のユーザ端末102に表示されるトピック操作画面1000の一例を示す図である。図11は、実施例1の計算機100によって表示される検索結果表示画面1100の一例を示す図である。
文章データ管理モジュール121は、任意のタイミングで、ユーザ入力画面900をユーザ端末102に表示する。
ここで、図9を用いてユーザ入力画面900を説明する。ユーザ入力画面900は、データ入力欄901、ドメイン入力欄902、追加ボタン903、及び実行ボタン904を含む。
データ入力欄901は、データベース101へ登録する文章データ105の識別情報又は関連文章データ105を検索するための単語を入力する欄である。ドメイン入力欄902は、文章データ105を格納先又は検索対象のドメインの識別情報を入力する欄である。追加ボタン903は、データ入力欄901及びドメイン入力欄902の組を追加するためのボタンである。実行ボタン904は、処理要求を送信するためのボタンである。
ユーザが実行ボタン904を操作した場合、データ入力欄901を用いて指定された文章データ105又は単語、及びドメイン入力欄902に設定されたドメインの識別情報を含む処理要求が計算機100に送信される。
なお、ユーザ及びドメインを対応づけた情報を用いて、ユーザが扱うことができるドメインを制限できるようにしてもよい。この場合、ドメイン入力欄902への入力は、操作しているユーザが扱うことができるドメインの識別情報にのみ制限される。
以上がユーザ入力画面900の説明である。図8の説明に戻る。
文章データ管理モジュール121は、ユーザ端末102から処理要求を受信する(ステップS201)。具体的には、入出力モジュール131が、処理要求を受信する。
次に、文章データ管理モジュール121は、解析処理を実行し(ステップS202)、処理結果としてトピック操作画面1000を表示するための表示データを出力する(ステップS203)。解析処理の詳細は図12を用いて説明する。文章データ管理モジュール121は、表示データを出力した後、待ち状態に移行する。
ここで、図10を用いてトピック操作画面1000について説明する。トピック操作画面1000は、トピック表示欄1001、トピック操作欄1002、及び検索開始ボタン1003を含む。
トピック表示欄1001は、解析処理に基づいて選択された検索キー(検索用トピック)の候補となるトピックを表示する欄である。実施例1では、ドメイン単位にトピックが異なるため、トピック表示欄1001はタブ形式でトピックが表示される。ユーザは、任意のドメインのタブ1005を選択することによって、当該ドメインに関するトピック表示欄1001を閲覧できる。
トピック表示欄1001にはトピックリスト1010が含まれる。トピックリスト1010は、選択ボタン1011、トピックID1012、生成元1013、及び単語1014から構成されるエントリを含む。一つのエントリが一つのトピックを表す。
トピックID1012は、トピックの識別情報を格納するフィールドである。実施例1では、トピック管理情報125及び仮登録トピック管理情報126に基づいて。トピック表示欄1001に表示するトピックが検索される。したがって、トピックID1012には、トピックID502及び仮登録トピックID602のいずれかの値が設定される。
単語1014は、トピックを構成する単語を格納するフィールドである。単語1014には、単語503及び単語603のいずれかの値が設定される。
生成元1013は、トピックが他のドメインから流用したトピックであるか否かを示す情報を格納するフィールドである。生成元1013には、生成元507及び生成元606のいずれかの値が設定される。
選択ボタン1011は、操作するエントリを選択するためのボタンである。実施例1では、ユーザが選択ボタン1011を操作した場合、トピック操作欄1002への入力又は検索開始ボタン1003の操作が有効化される。
トピック操作欄1002は、トピックに対する操作を指定する欄である。トピック操作欄1002は、トピック追加ボタン1021、トピック削除ボタン1022、単語変更ボタン1023、トピック評価ボタン1024、及び理由入力欄1025を含む。トピック操作欄1002を用いた操作は、更新要求として計算機100に送信される。更新要求には、ドメインの識別情報、トピックの識別情報、操作内容、ユーザの識別情報、及び理由等が含まれる。更新要求には、更新要求の種別を示す値が含まれてもよい。
トピック追加ボタン1021は、トピックを追加するためのボタンである。ユーザがトピック追加ボタン1021を操作した場合、文章データ管理モジュール121は、後述する候補トピックリストをユーザ端末102に表示し、又は、追加するトピックの識別情報等を入力する画面をユーザ端末102に表示する。
トピック削除ボタン1022は、トピックを削除するためのボタンである。ユーザがトピック削除ボタン1022を操作した場合、文章データ管理モジュール121は、トピックリスト1010から選択ボタン1011が操作されたエントリを削除する。
単語変更ボタン1023は、トピックを構成する単語を修正するためのボタンである。ユーザが単語変更ボタン1023を操作した場合、文章データ管理モジュール121は、選択ボタン1011が操作されたエントリの単語1014に対する操作を有効化する。ユーザは、当該エントリの単語1014に単語を追加し、又は、単語を削除する。
トピック評価ボタン1024は、選択ボタン1011が操作されたエントリのトピックの評価値504又は評価値604を変更するためのボタンである。
実施例1では、トピック評価ボタン1024が押下された場合、選択ボタン1011が操作されたエントリに対応するトピックの評価値504又は評価値604の値が更新される。例えば、評価値504又は評価値604に、規定の値が加点される。加点する値は全てのユーザが同一でなくてもよい。また、ユーザが具体的に値を入力してもよい。また、加点だけではなく、評価値を減点する操作が行われてもよい。
理由入力欄1025は、トピック追加ボタン1021、トピック削除ボタン1022、単語変更ボタン1023、及びトピック評価ボタン103のいずれかを操作した理由を設定する欄である。
検索開始ボタン1003は、関連文章データ105を検索する検索処理の実行を指示するためのボタンである。
検索開始ボタン1003を用いた操作は、検索要求として計算機100に送信される。検索要求には、現在閲覧しているドメインの識別情報、選択ボタン1011を用いて選択された一つ以上のトピック(検索用トピック)の識別情報、及びユーザの識別情報等が含まれる。検索要求には、検索要求の種別を示す値が含まれてもよい。
文章データ管理モジュール121は、検索要求を受信した場合、検索用トピックのリストを生成し、当該リストを用いて文章データ検索処理を実行する。
以下の説明では、検索用トピックのリストを検索リストと記載する。検索リストには、検索開始ボタン1003の操作時にトピックリスト1010に選択ボタン1011で選択された一つ以上のトピックが含まれる。
文章データ検索処理では、検索用トピックとして使用されたトピックの使用実績に基づいてトピック管理情報125及び仮登録トピック管理情報126が更新される。具体的には、検索回数505又は検索回数605の値に「1」が加算される。
以上がトピック操作画面1000の説明である。図8の説明に戻る。
次に、文章データ管理モジュール121は、トピック操作画面1000に対する操作によって出力された要求をユーザ端末102から受信した場合、処理を再開する。まず、文章データ管理モジュール121は、受信した要求が検索要求であるか否かを判定する(ステップS205)。なお、要求の種別の判別方法としては、要求に含まれる値に基づいて判別する方法、又は、要求の種別を表す値に基づいて判別する方法が考えられる。
受信した要求が検索要求でないと判定された場合、文章データ管理モジュール121は、受信した要求が更新要求であるか否かを判定する(ステップS206)。
受信した要求が更新要求でないと判定された場合、文章データ管理モジュール121は、ユーザ端末102にエラーを通知し(ステップS207)、処理を終了する。
受信した要求が更新要求であると判定された場合、文章データ管理モジュール121は、更新処理を実行する(ステップS207)。その後、文章データ管理モジュール121は待ち状態に移行する。具体的には、以下のような処理が実行される。
文章データ管理モジュール121は、更新要求に基づいてトピックリスト1010を更新する。
文章データ管理モジュール121は、単語の変更を伴う更新処理である場合、更新要求に基づいてトピック管理情報125の単語503又は仮登録トピック管理情報126の単語603を更新する。さらに、追加された単語がドメインの専門用語辞書に存在しない場合、文章データ管理モジュール121は、辞書管理情報124のドメインに対応するエントリに行を追加し、単語ID402に識別情報を設定し、また、単語403に追加された単語を設定する。また、文章データ管理モジュール121は、提供元404にユーザの識別情報を設定する。
また、文章データ管理モジュール121は、トピックの追加又は削除する更新の場合、トピック管理情報125の行の追加又は削除を行い、ドメイン管理情報122のトピック数204及び文章データ管理情報123のトピックID303を更新する。
以上がステップS207の処理の説明である。
ステップS203において、受信した要求が検索要求であると判定された場合、文章データ管理モジュール121は、文章データ検索処理を実行する(ステップS204)。文章データ検索処理の詳細は図12を用いて説明する。
次に、文章データ管理モジュール121は、処理結果として、ユーザ端末102に検索結果表示画面1100を表示するための表示データを出力する(ステップS205)。その後、計算機100は、処理を終了する。
文章データ管理モジュール121は、データ入力欄901を用いて入力された文章データ105を、ドメイン入力欄902に入力したドメインに関連するデータベース101に格納してもよい。
ここで、図11を用いて検索結果表示画面1100について説明する。検索結果表示画面1100は、データ選択欄1101、ドメイン選択欄1102、及び関連文章データリスト1103を含む。
データ選択欄1101及びドメイン選択欄1102は、文章データ検索処理において使用した文章データ105及びドメインの組合せを選択する欄である。データ選択欄1101及びドメイン選択欄1102に関連する検索結果が関連文章データリスト1103に表示される。
関連文章データリスト1103は、文章データ検索処理によって検索された文章データ105を示す情報であり、文章データ105の識別情報のリストとして表示される。一つのエントリが一つの文章データ105に対応する。エントリには、文章データ105の要約及び文章データ105のトピックの情報等が含まれてもよい。
ユーザは、関連文章データリスト1103を操作することによって、計算機100に表示要求を送信してもよい。表示要求には、文章データ105の識別情報が含まれる。計算機100は、表示要求を受信した場合、文章データ105をデータベース101から読み出し、読み出した文章データ105をユーザ端末102に送信する。
以上が検索結果表示画面1100の説明である。
図12は、実施例1の計算機100が実行する解析処理の一例を説明するフローチャートである。なお、複数の新規文章データ又は単語が入力された場合、各新規文章データ又は単語に対して以下で説明する処理が繰り返し実行される。
文章データ管理モジュール121は、空のトピックリスト1010を生成し、入力されたデータが文章データ105であるか否かを判定する(ステップS301)。
入力されたデータが単語であると判定された場合、文章データ管理モジュール121は、ステップS303に進む。
入力されたデータが文章データ105であると判定された場合、文章データ管理モジュール121は、文章データ105に対応する文章を単語に分解し(ステップS302)、その後、ステップS303に進む。例えば、文章データ管理モジュール121は、形態素解析に基づいて、文章を単語に分解する。
ステップS303では、文章データ管理モジュール121は、トピック管理情報125及び仮登録トピック管理情報126を用いて、検索用トピックを特定する(ステップS303)。ここで、入力されたデータが単語及び文章データ105のそれぞれについてステップS303の処理の一例を説明する。
入力されたデータが単語である場合、トピック管理モジュール132は、トピック管理情報125の単語503及び仮登録トピック管理情報126の単語603を参照して、ユーザによって入力された単語を含むエントリを検索する。トピック管理モジュール132は、検索されたエントリに対応するトピックを検索用トピックとして特定する。
入力されたデータが文章データ105である場合、以下のような処理が実行される。
まず、トピック管理モジュール132は、トピック管理情報125の単語503及び仮登録トピック管理情報126の単語603を参照して、ステップS302の処理によって得られた各単語を含むエントリを検索する。トピック管理モジュール132は、検索されたエントリに対応するトピックを候補トピックに設定する。トピック管理モジュール132は、候補トピックの識別情報から構成される候補トピックリストを生成し、メモリ112に一時的に格納する。
トピック管理モジュール132は、候補トピックリストから候補トピックを一つ選択する。トピック管理モジュール132は、入力された文章データ105に含まれる、候補トピックを構成する単語の数を計測する。トピック管理モジュール132は、単語の数に基づいてトピックの選択基準となる第1判定値を算出する。第1判定値は、入力された文章データ105とトピックとの間の関連性を示す値である。
例えば、単語の数を第1判定値として算出してもよいし、単語に設定された重要度及び単語の数を掛け合わせた値の合計値を第1判定値として算出してもよい。なお、単語に設定された重要度は、トピックにおいて重要な単語であるか否かを示す値である。
トピック管理モジュール132は、全ての候補トピックの第1判定値を算出した後、第1判定値に基づいて所定の数の候補トピックを検索用トピックとして選択する。トピック管理モジュール132は、選択された検索用トピックをトピックリスト1010に設定する。
例えば、トピック管理モジュール132は、第1判定値の大きい順に所定の数の検索用トピックを選択してもよいし、第1判定値が閾値より大きい候補トピックを検索用トピックとして選択してもよい。以上が入力されたデータが文章データ105である場合の処理の説明である。
次に、文章データ管理モジュール121は、表示データを生成する(ステップS304)。その後、文章データ管理モジュール121は解析処理を終了する。
具体的には、トピック管理モジュール132は、トピックリスト1010を表示するための表示データを生成する。
図13は、実施例1の文章データ管理モジュール121が実行する文章データ検索処理の一例を説明するフローチャートである。なお、入力された文章データ105に対して以下で説明する処理が繰り返し実行される。
実施例1の検索エンジン134は、各文章データ105に対して検索リストに含まれるトピックの有無を判定し、当該判定結果に基づいて入力された文章データ105と文章データ105との間の関連性を示す値(第2判定値)を算出する。以下、詳細な処理について説明する。
検索エンジン134は、トピックリスト1010から検索リストを生成し、検索リストに含まれる検索用トピックの数と同数の成分のベクトルv、dを生成する(ステップS401)。このとき、検索エンジン134は、空の関連文章データリストを生成する。
なお、ベクトルvは、新規文章データの特徴を表すベクトルであり、ベクトルdは、比較する文章データ105の特徴と表すベクトルである。一つの成分には一つの検索用トピックが対応づけられる。この時点では、各ベクトルの成分は全て0に設定される。
次に、検索エンジン134は、ベクトルvの成分を決定する(ステップS402)。例えば、以下のような処理が実行される。
検索エンジン134は、検索リストから検索用トピックを選択する。検索エンジン134は、新規文章データを参照して、選択された検索用トピックを構成する単語の数を計測する。検索エンジン134は、計測された単語の数を選択された検索用トピックに対応する成分の値に設定する。検索エンジン134は、検索リストに含まれる全ての検索用トピックに対して同様の処理を実行する。
次に、検索エンジン134は、文章データ105のループ処理を開始する(ステップS403)。具体的には、検索エンジン134は、文章データ105を一つ選択する。
次に、検索エンジン134は、ベクトルdの成分を決定する(ステップS404)。例えば、以下のような処理が実行される。
検索エンジン134は、検索リストから検索用トピックを選択する。検索エンジン134は、選択された文章データ105を参照して、選択された検索用トピックを構成する単語を検索する。選択された文章データ105に選択された検索用トピックを構成する単語が一つ以上含まれる場合、検索エンジン134は、選択された検索用トピックに対応する成分に「1」を設定する。
次に、検索エンジン134は、ベクトルv、dに基づいて、第2判定値を算出する(ステップS405)。例えば、ベクトルv及びベクトルdの内積を第2判定値として算出する方法が考えられる。
次に、検索エンジン134は、第2判定値が閾値より大きいか否かを判定する(ステップS406)。閾値は予め設定されているものとする。なお、閾値は適宜更新できる。
第2判定値が閾値以下であると判定された場合、検索エンジン134は、ステップS408に進む。
第2判定値が閾値より大きいと判定された場合、検索エンジン134は、選択された文章データ105を関連文章データ105として関連文章データリストに登録する(ステップS407)。その後、文章データ管理モジュール121は、ステップS408に進む。
ステップS408では、文章データ管理モジュール121は、全ての文章データ105について処理が完了したか否かを判定する(ステップS408)。
全ての文章データ105について処理が完了していないと判定された場合、文章データ管理モジュール121は、ベクトルdを初期化した後、ステップS403に戻り、同様の処理を実行する。
全ての文章データ105について処理が完了したと判定された場合、文章データ管理モジュール121は、関連文章データリストに登録された文章データ105を第2判定値の大きい順にソートする(ステップS409)。
次に、文章データ管理モジュール121は、関連文章データリストを表示するための表示データを生成する(ステップS410)。その後、文章データ管理モジュール121は、文章データ検索処理を終了する。
なお、ループ処理では、データベース101に格納された全ての文章データ105を対象としていたが、これに限定されない。例えば、ユーザに対応づけられたドメインに属する文章データ105のみを対象としてもよい。
なお、図13を用いて説明した関連文章データの特定方法は、一例であって、これに限定されない。
なお、実施例1では、関連文章データの検索時に、ユーザによってトピックが更新されているがこれに限定されない。例えば、文章データ管理モジュール121は、周期的、イベントの発生時、又は、ユーザからの要求を受け付けた場合、トピックを提示するようにしてもよい。この場合、検索用トピックを表示する画面と、更新用のトピックを表示する画面とは別々に表示される。トピックの更新を行うタイミングを調整することによって、ユーザの負担を低減できる。
図14は、実施例1の計算機100が実行する登録トピック決定処理の一例を説明するフローチャートである。文章データ管理モジュール121は運用処理の実行中の任意のタイミング又は運用処理の実行後に以下で説明する処理を実行する。なお、登録トピック決定処理は周期的に実行されてもよい。
文章データ管理モジュール121は、ドメインのループ処理を開始する(ステップS501)。具体的には、文章データ管理モジュール121は、仮登録トピック管理情報126を参照し、エントリ(ターゲットドメイン)を一つ選択する。
次に、文章データ管理モジュール121は、仮登録トピックのループ処理を開始する(ステップS502)。具体的には、文章データ管理モジュール121は、ターゲットドメインに対応するエントリに含まれる行の中から一つの行(ターゲット仮登録トピック)を選択する。
次に、文章データ管理モジュール121は、ターゲット仮登録トピックの経過時間が閾値より大きいか否かを判定する(ステップS503)。具体的には、文章データ管理モジュール121は、ターゲット仮登録トピックに対応する行の期間607の値が閾値より大きいか否かを判定する。
ターゲット仮登録トピックの経過時間が閾値以下であると判定された場合、文章データ管理モジュール121は、ステップS507に進む。
ターゲット仮登録トピックの経過時間が閾値より大きいと判定された場合、文章データ管理モジュール121は、ターゲット仮登録トピックの使用実績に基づいて、トピック管理情報125にターゲット仮登録トピックを登録できるか否かを判定する(ステップS504)。
例えば、文章データ管理モジュール121は、ターゲット仮登録トピックに対応する行の検索回数605が閾値より大きいか否かを判定する。検索回数605が閾値より大きい場合、文章データ管理モジュール121は、トピック管理情報125にターゲット仮登録トピックを登録できると判定する。なお、前述の判定方法は一例であってこれに限定されず、評価値604に基づいて判定してもよい。
トピック管理情報125にターゲット仮登録トピックを登録できると判定された場合、文章データ管理モジュール121は、トピック管理情報125にターゲット仮登録トピックを登録する(ステップS505)。その後、文章データ管理モジュール121はステップS507に進む。具体的には、以下のような処理が実行される。
文章データ管理モジュール121は、ドメインID501がターゲットドメインの識別情報に一致するエントリを検索し、検索されたエントリに行を追加する。文章データ管理モジュール121は、追加された行のトピックID502に新たな識別情報を設定する。文章データ管理モジュール121は、ターゲット仮登録トピックに対応する行の単語603、評価値604、検索回数605、及び生成元606の値を、追加された行の単語503、評価値504、検索回数505、及び生成元507に設定する。
文章データ管理モジュール121は、ターゲット仮登録トピックを構成する単語のうち、ターゲットドメインの専門用語辞書に登録されていない単語を特定する。文章データ管理モジュール121は、ドメインID401がターゲットドメインの識別情報に一致するエントリを検索し、検索されたエントリに特定された単語の数だけ行を追加する。文章データ管理モジュール121は、追加された行の単語ID402に識別情報をし。追加された行の単語403に特定された単語を設定する。また、文章データ管理モジュール121は、追加された全ての行の提供元404に、ターゲット仮登録トピックに対応する行の生成元606の値を設定する。
文章データ管理モジュール121は、仮登録トピック管理情報126から、ターゲット仮登録トピックに対応する行を削除する。
以上がステップS505の処理の説明である。
トピック管理情報125にターゲット仮登録トピックを登録できないと判定された場合、文章データ管理モジュール121は、仮登録トピック管理情報126から、ターゲット仮登録トピックに対応する行を削除する(ステップS506)。その後、文章データ管理モジュール121はステップS507に進む。
ステップS507では、文章データ管理モジュール121は、ターゲットドメインの全ての仮登録トピックについて処理が完了したか否かを判定する(ステップS507)。
ターゲットドメインの全ての仮登録トピックについて処理が完了していないと判定された場合、文章データ管理モジュール121は、ステップS502に戻り、新たなターゲット仮登録トピックを選択する。
ターゲットドメインの全ての仮登録トピックについて処理が完了したと判定された場合、文章データ管理モジュール121は、仮登録トピック管理情報126に登録された全てのドメインについて処理が完了したか否かを判定する(ステップS508)。
仮登録トピック管理情報126に登録された全てのドメインについて処理が完了していないと判定された場合、文章データ管理モジュール121は、ステップS501に戻り、新たなターゲットドメインを選択する。
仮登録トピック管理情報126に登録された全てのドメインについて処理が完了したと判定された場合、文章データ管理モジュール121は、登録トピック決定処理を終了する。
以上で説明したように、実施例1によれば、計算機100は、特定のドメインにトピックを追加する場合に、自動的かつ効率的に他のドメインのトピックの中から特定のドメインに追加するトピックを選択できる。
計算機100は、選択条件を満たすトピックを仮登録トピックとして一時的に保持し、ターゲットドメインにおける関連文章データ105の検索処理等の使用実績に基づいて実際に登録するトピックを決定する。これによって、特定のドメインにおける関連文章検索サービスの使用状態を反映したトピック、すなわち、関連文章データ105の検索精度が向上するトピックを特定のドメインに追加できる。
特に、コーパス及び専門用語辞書の質及び量が不足している場合でも、関連文章データ105の検索精度が高いトピックをドメインに追加できる。
また、実施例1によれば、計算機100は、トピックの追加に伴って、有用な単語を専門用語辞書に追加することができる。
実施例2では、仮登録トピック登録処理が一部異なる。以下、実施例1との差異を中心に実施例2について説明する。
実施例2の計算機システムの構成は、実施例1の計算機システムの構成と同一である。実施例2の各装置のハードウェア構成及びソフトウェア構成は、実施例1の各装置のハードウェア構成及びソフトウェア構成と同一である。また、実施例2の計算機100が保持する各種情報のデータ構造は、実施例1のデータ構造と同一である。
図15は、実施例2の計算機100が実行する仮登録トピック登録処理の一例を説明するフローチャートである。
実施例2では、文章データ管理モジュール121のドメイン管理モジュール133が、ステップS102の処理が実行された後、ドメインの中から新規ドメインの類似ドメインを特定する(ステップS151)。なお、複数の類似ドメインが特定されてもよい。
類似ドメインを特定する方法としては、例えば、以下の二つの方法が考えられる。
(方法1)ドメイン管理モジュール133は、新規ドメインの専門用語辞書及び既存のドメインの専門用語辞書を比較し、同一の単語及び類似する単語の数を計測する。ドメイン管理モジュール133は、計測された単語の数が閾値より大きいドメインを類似ドメインとして特定する。
(方法2)ドメイン管理モジュール133は、トピック管理情報125を参照して、既存のドメインのトピック及び新規ドメインのトピックを比較し、同一のトピック及び類似するトピックの数を計測する。類似するトピックの検索方法は(条件2)と同一の方法を用いる。ドメイン管理モジュール133は、計測されたトピックの数が閾値より大きいドメインを類似ドメインとして特定する。
(方法1)及び(方法2)の二つの方法は組み合わせてもよい。なお、前述した方法は一例であってこれに限定されない。例えば、ドメインに対応づけられたユーザの属性、及びデータベース160に格納される文章データ105の内容等の類似性に基づいて類似ドメインを特定してもよい。
ステップS103以降の処理は、実施例1と同一の処理である。ただし、実施例2では、類似ドメインが比較ドメインとして扱われる点が実施例1と異なる。
実施例2によれば、類似ドメインのトピックから仮登録トピックを選択することによって、処理負荷の低減及び処理速度の向上が可能となる。また、有用なトピックを効率的に選択することができる。
実施例3では、仮登録トピックの選択条件の一つとして、関連文章データリスト1103に表示された文章データ105に対するユーザの評価を用いる点が実施例1と異なる。以下、実施例1との差異を中心に実施例3について説明する。
実施例3の計算機システムの構成は、実施例1の計算機システムの構成と同一である。実施例3の各装置のハードウェア構成及びソフトウェア構成は、実施例1の各装置のハードウェア構成及びソフトウェア構成と同一である。
実施例3では、文章データ管理情報123のデータ構造が異なる。その他の情報のデータ構造は、実施例1のデータ構造と同一である。
図16は、実施例3の文章データ管理情報123のデータ構造の一例を示す図である。
文章データ管理情報123に含まれるエントリは、新たに評価値304を含む。評価値304は、関連文章データリスト1103に表示された文章データ105に対するユーザの評価を示す値を格納するフィールドである。なお、評価値304の初期値は「0」に設定される。
図17は、実施例3の計算機100によって表示される検索結果表示画面1100の一例を示す図である。
実施例3では、関連文章データリスト1103に含まれるエントリの構成が異なる。エントリは、文章ID1111及び評価ボタン1112から構成される。
評価ボタン1112は、関連文章データリスト1103に表示される文章データ105の評価を行うためのボタンである。
実施例3では、ユーザが評価ボタン1112を操作した場合、文章データ管理モジュール121は、文章データ管理情報123を参照し、文章データID302の値が文章ID1111の値と一致するエントリを検索し、当該エントリの評価値304に点数を加算する。加算される点数は固定値でもよいし、ユーザ毎に異なってもよい。また、ユーザが加算する点数を決定してもよい。
なお、評価ボタン1112には、評価値304の値を減点するボタンが含まれてもよい。
なお、関連文章データリスト1103に含まれるエントリは、現在の文章データ105の評価値(評価値304)を表示するフィールドを含んでもよい。
実施例3では、仮登録トピックを選択するための条件として以下のような条件が追加される。
(条件5)比較ドメインに属する文章データ105であって、評価値304が閾値より大きい。
ただし、同一の比較ドメインのトピックを含む文章データ105が複数存在する場合、各文章データ105の評価値304の合計値が閾値より大きいか否かが判定される。
(条件5)は比較ドメインのトピックに基づいて検索された文章データ105の評価実績に基づいてトピックを検索するための条件である。当該条件に基づいてトピックを選択することによって、検索精度の向上が期待できるトピックを選択することができる。
また、実施例3では、仮登録トピックをトピック管理情報125に登録できるか否かを判定するための条件として評価値304に関連する条件を用いてもよい。例えば、文章データ管理モジュール121は、ターゲット仮登録トピックが定義された文章データ105の評価値304が閾値より大きいか否かを判定する。評価値304が閾値より大きい場合、文章データ管理モジュール121は、トピック管理情報125にターゲット仮登録トピックを登録できると判定する。
実施例3によれば、関連文章データ105の検索結果に対するユーザの評価を活用することによって、関連文章データ105の検索精度が向上するトピックをドメインに追加できる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 データベース
102 ユーザ端末
105 文章データ
111 プロセッサ
112 メモリ
113 ネットワークインタフェース
121 文章データ管理モジュール
122 ドメイン管理情報
123 文章データ管理情報
124 辞書管理情報
125 トピック管理情報
126 仮登録トピック管理情報
131 入出力モジュール
132 トピック管理モジュール
133 ドメイン管理モジュール
134 検索エンジン
900 ユーザ入力画面
1000 トピック操作画面
1100 検索結果表示画面

Claims (10)

  1. 文章データを格納するデータベース及び前記データベースを管理する計算機を備える計算機システムであって、
    前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、
    前記記憶装置は、前記文章データを特徴づける単語であって、任意の文章データと関連する関連文章データを検索するための検索キーとして用いられるトピック及び前記トピックに分類される単語の対応関係を、前記文章データの管理単位であるドメイン毎に管理するトピック管理情報を格納し、
    前記演算装置は、
    ターゲットドメインへの新規トピックの登録契機を検出した場合、前記ターゲットドメイン以外のドメインの前記トピックの中から登録候補のトピックである仮登録トピックを選択し、
    前記トピック及び前記仮登録トピックを前記検索キーとして用いて前記関連文章データを検索するための検索処理を実行し、
    前記検索処理における前記仮登録トピックの使用実績に基づいて、前記ターゲットドメインのトピックとして登録する前記仮登録トピックを選択し、
    前記仮登録トピックの情報を前記トピック管理情報に追加することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記記憶装置は、前記ドメイン毎の前記仮登録トピックを管理するための仮登録トピック管理情報、及び前記ドメイン毎の辞書を格納し、
    前記演算装置は、
    前記トピック管理情報に基づいて、前記ターゲットドメイン、前記仮登録トピックとして選択されたトピック、及び当該トピックに分類される単語を対応づけたデータを前記仮登録トピック管理情報に格納し、
    前記トピック管理情報に第1仮登録トピックを登録する場合、前記第1仮登録トピックに分類される単語であって、前記ターゲットドメインの辞書に登録されていない単語を特定し、
    前記ターゲットドメインの辞書に前記特定された単語を追加することを特徴とする計算機システム。
  3. 請求項2に記載の計算機システムであって、
    前記演算装置は、前記ターゲットドメインの辞書及び前記ターゲットドメイン以外のドメインの辞書の比較結果、前記ターゲットドメインのトピックを構成する単語及び前記ターゲットドメイン以外のドメインのトピックを構成する単語の比較結果、並びに前記ターゲットドメイン以外のドメインのトピックの前記検索処理における使用実績の少なくともいずれかに基づいて、前記仮登録トピックを選択することを特徴とする計算機システム。
  4. 請求項3に記載の計算機システムであって、
    前記演算装置は、
    前記ターゲットドメインの辞書及び前記ターゲットドメイン以外のドメインの辞書の比較結果、並びに前記ターゲットドメインのトピックを構成する単語及び前記ターゲットドメイン以外のドメインのトピックを構成する単語の比較結果に基づいて、前記ターゲットドメインに類似する類似ドメインを特定し、
    前記類似ドメインのトピックの中から前記仮登録トピックを選択することを特徴とする計算機システム。
  5. 請求項2に記載の計算機システムであって、
    前記演算装置は、
    前記関連文章データとして提示された文章データに対するユーザの評価を示す評価情報を前記記憶装置に格納し、
    前記ターゲットドメインの辞書及び前記ターゲットドメイン以外のドメインの辞書の比較結果、前記ターゲットドメインのトピックを構成する単語及び前記ターゲットドメイン以外のドメインのトピックを構成する単語の比較結果、前記ターゲットドメイン以外のドメインのトピックの前記検索処理における使用実績、並びに前記評価情報の少なくともいずれかに基づいて、前記仮登録トピックを選択することを特徴とする計算機システム。
  6. 文章データを格納するデータベースを管理する計算機が実行する文章データ管理方法であって、
    前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、
    前記記憶装置は、前記文章データを特徴づける単語であって、任意の文章データと関連する関連文章データを検索するための検索キーとして用いられるトピック及び前記トピックに分類される単語の対応関係を、前記文章データの管理単位であるドメイン毎に管理するトピック管理情報を格納し、
    前記文章データ管理方法は、
    前記演算装置が、ターゲットドメインへの新規トピックの登録契機を検出した場合、前記ターゲットドメイン以外のドメインの前記トピックの中から登録候補のトピックである仮登録トピックを選択する第1のステップと、
    前記演算装置が、前記トピック及び前記仮登録トピックを前記検索キーとして用いて前記関連文章データを検索するための検索処理を実行する第2のステップと、
    前記演算装置が、前記検索処理における前記仮登録トピックの使用実績に基づいて、前記ターゲットドメインのトピックとして登録する前記仮登録トピックを選択し、前記仮登録トピックの情報を前記トピック管理情報に追加する第3のステップと、を含むことを特徴とする文章データ管理方法。
  7. 請求項6に記載の文章データ管理方法であって、
    前記記憶装置は、前記ドメイン毎の前記仮登録トピックを管理するための仮登録トピック管理情報、及び前記ドメイン毎の辞書を格納し、
    前記第1のステップは、前記演算装置が、前記トピック管理情報に基づいて、前記ターゲットドメイン、前記仮登録トピックとして選択されたトピック、及び当該トピックに分類される単語を対応づけたデータを前記仮登録トピック管理情報に格納するステップを含み、
    前記第3のステップは、
    前記演算装置が、前記トピック管理情報に第1仮登録トピックを登録する場合、前記第1仮登録トピックに分類される単語であって、前記ターゲットドメインの辞書に登録されていない単語を特定するステップと、
    前記演算装置が、前記ターゲットドメインの辞書に前記特定された単語を追加するステップと、を含むことを特徴とする文章データ管理方法。
  8. 請求項7に記載の文章データ管理方法であって、
    前記第1のステップでは、前記演算装置が、前記ターゲットドメインの辞書及び前記ターゲットドメイン以外のドメインの辞書の比較結果、前記ターゲットドメインのトピックを構成する単語及び前記ターゲットドメイン以外のドメインのトピックを構成する単語の比較結果、並びに前記ターゲットドメイン以外のドメインのトピックの前記検索処理における使用実績の少なくともいずれかに基づいて、前記仮登録トピックを選択することを特徴とする文章データ管理方法。
  9. 請求項8に記載の文章データ管理方法であって、
    前記第1のステップは、
    前記演算装置が、前記ターゲットドメインの辞書及び前記ターゲットドメイン以外のドメインの辞書の比較結果、並びに前記ターゲットドメインのトピックを構成する単語及び前記ターゲットドメイン以外のドメインのトピックを構成する単語の比較結果に基づいて、前記ターゲットドメインに類似する類似ドメインを特定するステップと、
    前記演算装置が、前記類似ドメインのトピックの中から前記仮登録トピックを選択するステップと、を含むことを特徴とする文章データ管理方法。
  10. 請求項7に記載の文章データ管理方法であって、
    前記演算装置が、前記関連文章データとして提示された文章データに対するユーザの評価を示す評価情報を前記記憶装置に格納するステップを含み、
    前記第1のステップでは、前記演算装置が、前記ターゲットドメインの辞書及び前記ターゲットドメイン以外のドメインの辞書の比較結果、前記ターゲットドメインのトピックを構成する単語及び前記ターゲットドメイン以外のドメインのトピックを構成する単語の比較結果、前記ターゲットドメイン以外のドメインのトピックの前記検索処理における使用実績、並びに前記評価情報の少なくともいずれかに基づいて、前記仮登録トピックを選択することを特徴とする文章データ管理方法。
JP2018051370A 2018-03-19 2018-03-19 計算機システム及び文章データ管理方法 Pending JP2019164504A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018051370A JP2019164504A (ja) 2018-03-19 2018-03-19 計算機システム及び文章データ管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018051370A JP2019164504A (ja) 2018-03-19 2018-03-19 計算機システム及び文章データ管理方法

Publications (1)

Publication Number Publication Date
JP2019164504A true JP2019164504A (ja) 2019-09-26

Family

ID=68065570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018051370A Pending JP2019164504A (ja) 2018-03-19 2018-03-19 計算機システム及び文章データ管理方法

Country Status (1)

Country Link
JP (1) JP2019164504A (ja)

Similar Documents

Publication Publication Date Title
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
JP4368336B2 (ja) カテゴリ設定支援方法及び装置
RU2547213C2 (ru) Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности
CN112487150B (zh) 档案管理方法、系统、存储介质及电子设备
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
CN111191105B (zh) 政务信息的搜索方法、装置、系统、设备及存储介质
CN113177154A (zh) 搜索词推荐方法、装置、电子设备及存储介质
JP5429377B2 (ja) 文字入力における候補の表示方法
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
US11244000B2 (en) Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
US20220343087A1 (en) Matching service requester with service providers
JPH05324728A (ja) 情報検索装置
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
JP2019164504A (ja) 計算機システム及び文章データ管理方法
JP6676792B2 (ja) レビュア管理システムおよび方法
JP6221593B2 (ja) データ管理方法、データ管理プログラム及びデータ管理装置
CN111310016A (zh) 标签挖掘方法、装置、服务器和存储介质
JP7261262B2 (ja) 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
JP2019023834A (ja) 計算機システム及び文章データの検索方法
JP6884172B2 (ja) 計算機システム及び文書の評価方法
CN113569012B (zh) 医疗数据查询方法、装置、设备及存储介质