JP2019023834A - 計算機システム及び文章データの検索方法 - Google Patents

計算機システム及び文章データの検索方法 Download PDF

Info

Publication number
JP2019023834A
JP2019023834A JP2017143251A JP2017143251A JP2019023834A JP 2019023834 A JP2019023834 A JP 2019023834A JP 2017143251 A JP2017143251 A JP 2017143251A JP 2017143251 A JP2017143251 A JP 2017143251A JP 2019023834 A JP2019023834 A JP 2019023834A
Authority
JP
Japan
Prior art keywords
word
database
user
topic
management information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017143251A
Other languages
English (en)
Inventor
森 一
Hajime Mori
一 森
宇都木 契
Chigiri Utsugi
契 宇都木
清弘 小原
Kiyohiro Obara
清弘 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017143251A priority Critical patent/JP2019023834A/ja
Publication of JP2019023834A publication Critical patent/JP2019023834A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文章データの検索に用いるトピックを手動で効率的に更新する。【解決手段】文章データを格納するデータベース及び計算機を備える計算機システムであって、計算機は、文章データを特徴付ける単語であって、関連文章データの検索キーとして用いられる単語を管理する単語管理情報を保持し、新規文章データを含む登録要求を受信した場合、単語管理情報を用いて新規文章データを解析し、新規文章データに含まれる単語を特定し、特定された単語の中から検索キーの候補となる単語である候補キーを特定し、候補キーの中から検索キーを選択し、検索キーに選ばれなかった候補キーの中から学習用単語を選択し、学習用単語を表示するための第1表示データを生成し、第1表示データを出力し、検索キーに基づいて関連文章データを検索して、関連文章データを表示するための第2表示データを生成し、第2表示データを出力する。【選択図】図12

Description

本発明は、データベースに格納する文章データに関連する文章データの検索方法に関する。
業務システムでは、様々な文章が文章データとしてデータベースに格納されている。業務内容又は保存する文章によっては、ユーザは、データベースに文章データを格納する時に、関連する文章データを確認する必要がある。したがって、ユーザの目的等に沿って、必要な文章データを提示する技術が求められている。
従来技術として特許文献1に記載の技術が知られている。特許文献1には「システムの開発に必要な設計項目を抽出するためのガイド用語抽出装置であって、システムの開発に関連する検索語が入力されると、予め記憶された検索語と、前記システムに関連する複数のガイドラインのガイド用語とを意味の観点から分類する予め記憶された索引の情報に基づいて、前記ガイド用語を抽出するガイド用語抽出部を備えた」ことが記載されている。
特開2015−118676号公報
特許文献1に記載されているように、文章データを扱うシステムでは、単語のグループであるトピックを検索キーとして用いてユーザに提示する文章データを検索する方法が知られている。
トピックはコーパスに基づいて生成される。一方、データベースに格納される情報及びシステムの状態は時々刻々と変化する。そのため、コーパスに基づいて生成されたトピックをそのまま用いても適切な文章データを検索できない。したがって、システムの状態等を反映した学習処理を実行し、トピックを更新する技術が求められる。
機械学習等、自動的な学習処理を実行した場合、一定以上の検索精度を保証できるが、ユーザの知識及びノウハウが完全を反映できない。そのため、ユーザの知識及びノウハウをトピックに反映するためには、ユーザが手動で学習処理が実行された後のトピックを更新する必要がある。しかし、トピックの数は膨大であるためユーザの負担が大きく、全てのトピックを手動で更新することはできない。
ランダムにトピックを更新する方法も考えられるが、更新を行うユーザと関連性が低いトピックを更新しても、ユーザの知識及びノウハウは反映されないため検索精度は向上しない。
本発明は、ユーザの負担が少なく、かつ、検索精度を向上できるトピック(検索キー)の学習を実現するシステム及び方法を提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文章データを格納するデータベース及び前記データベースを管理する計算機を備える計算機システムであって、前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、前記記憶装置は、前記文章データを特徴付ける単語であって、データベースに登録される新規文章データと関連する関連文章データの検索キーとして用いられる単語を管理する単語管理情報を格納し、前記演算装置は、前記新規文章データを含む登録要求を受信した場合、前記単語管理情報を用いて前記新規文章データを解析し、前記新規文章データに含まれる単語を特定する第1処理と、前記特定された単語の中から前記検索キーの候補となる単語である候補キーを特定する第2処理と、前記候補キーの中から前記検索キーを選択する第3処理と、前記検索キーに選ばれなかった前記候補キーの中から学習用単語を選択する第4処理と、前記学習用単語を表示するための第1表示データを生成し、前記第1表示データを出力する第5処理と、前記検索キーに基づいて前記関連文章データを検索して、前記関連文章データを表示するための第2表示データを生成し、前記第2表示データを出力する第6処理と、を実行することを特徴とする。
本発明によれば、新規文章データの登録時に新規文章データに関連する単語(トピック)の中から学習用単語を選択し、ユーザに学習用単語を提示することによって、ユーザの負担が少なく、かつ、検索精度を向上できるトピックの学習が可能となる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機システムの構成の一例を示す図である。 実施例1のユーザ管理情報のデータ構造の一例を示す図である。 実施例1のデータベース管理情報のデータ構造の一例を示す図である。 実施例1のトピック管理情報のデータ構造の一例を示す図である。 実施例1の学習履歴情報のデータ構造の一例を示す図である。 実施例1の計算機が実行するユーザ登録処理の一例を説明するフローチャートである。 実施例1のユーザ端末に表示されるログイン画面の一例を示す図である。 実施例1の計算機が新規文章データを登録する場合に実行する処理の概要を説明するフローチャートである。 実施例1の計算機が新規文章データを登録する場合に実行する処理の概要を説明するフローチャートである。 実施例1のユーザ端末に表示される文章データ入力画面の一例を示す図である。 実施例1のユーザ端末に表示されるトピック操作画面の一例を示す図である。 実施例1の計算機によって表示される検索結果表示画面の一例を示す図である。 実施例1の計算機が実行する新規文章データの解析処理の一例を説明するフローチャートである。 実施例1の文章データ管理モジュールが実行する文章検索処理の一例を説明するフローチャートである。 実施例2の計算機が実行する新規文章データの解析処理の一例を説明するフローチャートである。 実施例3のユーザ端末に表示される文章データ入力画面の一例を示す図である。 実施例3の計算機が新規文章データを登録する場合に実行する処理の概要を説明するフローチャートである。 実施例3の計算機が新規文章データを登録する場合に実行する処理の概要を説明するフローチャートである。
以下、本発明に係る実施例を添付図面を用いて説明する。各図において共通の構成については同一の参照符号が付されている。
図1は、実施例1の計算機システムの構成の一例を示す図である。
計算機システムは、計算機100、複数のデータベース101、及びユーザ端末102から構成される。
計算機100は、一つ以上の文章データ105が格納されるデータベース101を管理する。また、計算機100は、ユーザが登録する新規文章データに関連する文章データ105を提示する。以下の説明では、新規文章データに関連する文章データを関連文章データとも記載する。
ここで本明細書の用語の扱いについて説明する。文章は、一つ以上の単語から構成される文がまとまったものを表す。文章データは、データ化された文章を表す。トピックは、性質が共通する単語、又は、意味若しくは観点が類似する単語の集合であって、文章データの内容等を示す一種の単語として扱われる。本実施例では、関連文章データを検索するための検索キーとしてトピックが用いられる。
計算機100は、プロセッサ111、メモリ112、及びネットワークインタフェース113を有する。
プロセッサ111は、メモリ112に格納されるプログラムを実行する。プロセッサ111がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ111が当該モジュールを実現するプログラムを実行していることを示す。
メモリ112は、プロセッサ111が実行するプログラム及び各種情報を格納する。また、メモリ112は、プログラムが一時的に使用するワークエリアを含む。
ネットワークインタフェース113は、ネットワークを介して外部装置と接続するインタフェースである。本実施例では、計算機100は、ネットワークインタフェース113を用いてデータベース101及びユーザ端末102と接続する。なお、計算機100は、HBA(Host Bus Adapter)を有してもよい。また、計算機100は、キーボード及びマウス等の入力装置、並びに、ディスプレイ等の出力装置と接続するI/Oインタフェースを有してもよい。
本実施例のメモリ112は、文章データ管理モジュール121を実現するプログラムを格納する。また、メモリ112は、ユーザ管理情報122、データベース管理情報123、トピック管理情報124、及び学習履歴情報125を格納する。
文章データ管理モジュール121は、ユーザのアカウント及びデータベース101に格納された文章データ105を管理し、また、データベース101に対する文章データ105の登録、読み出し、及び削除等の操作を制御する。また、文章データ管理モジュール121は、新規文章データ登録要求を受け付けた場合、新規文章データの解析結果及びユーザ操作に基づいて、関連文章データ105を提示し、また、新規文章データの解析結果に基づいて、学習を行うトピックを選択し、ユーザに提示する。さらに、文章データ管理モジュール121は、データベース101に新規文章データを格納する。
文章データ管理モジュール121は、入出力モジュール131、トピック選択モジュール132、検索エンジン133、及びアカウント管理モジュール134を含む。
入出力モジュール131は、データの入出力を制御する。本実施例では、入出力モジュール131は、新規文章データ等を含む各種要求を受け付け、また、関連文章データ105等を表示する表示データを出力する。
トピック選択モジュール132は、新規文章データの解析結果に基づいて関連文章データ105の検索に用いるトピックを選択し、また、ユーザに提示して学習を行うトピックを選択する。以下の説明では、関連文章データ105の検索に用いるトピックを検索用トピックと記載し、ユーザに提示して学習を行うトピックを学習用トピックと記載する。
トピック選択モジュール132は、検索用トピックを検索エンジン133に出力する。また、トピック選択モジュール132は、学習用トピックに対するユーザの操作の履歴、すなわち、学習の履歴を学習履歴情報125に登録する。
検索エンジン133は、検索用トピックを用いて関連文章データ105を検索する。検索エンジン133は、関連文章データ105の検索結果等を表示する表示データを入出力モジュール131に出力する。
アカウント管理モジュール134は、ユーザのアカウントを管理し、また、計算機100に対するログイン処理を制御する。
ユーザ管理情報122は、ユーザのアカウントを管理する情報である。ユーザ管理情報122の詳細は図2を用いて説明する。データベース管理情報123は、データベース101を管理する情報である。データベース管理情報123の詳細は図3を用いて説明する。トピック管理情報124は、トピックを管理する情報である。トピック管理情報124の詳細は図4を用いて説明する。学習履歴情報125は、学習用トピックに対する操作の履歴を管理する情報である。学習履歴情報125の詳細は図5を用いて説明する。
データベース101は、文章データ105を格納する。本実施例では、文章データの種別、内容、又は、作成者に応じて異なるデータベース101が存在する。データベース101は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等のストレージ装置を用いて実現してもよいし、複数のストレージ装置を有するストレージシステムを用いて実現してもよい。
ユーザ端末102は、ユーザが操作する端末である。ユーザ端末102は、計算機100と同様にプロセッサ、メモリ、及びネットワークインタフェースを有する。ユーザ端末102は、計算機100が出力した表示データに基づいて画面を表示する。また、ユーザ端末102は、画面を介して計算機100にデータを入力し、また、ユーザに処理結果等を提示する。本実施例では、ログイン画面700(図7参照)、文章データ入力画面900(図9参照)、トピック操作画面1000(図10参照)、及び検索結果表示画面1100(図11参照)がユーザ端末102に表示される。
ログイン画面700は、ログイン時に使用する画面である。ログイン画面700の詳細は図7を用いて説明する。文章データ入力画面900は、データベース101に格納する文章データを指定するための画面である。文章データ入力画面900の詳細は図9を用いて説明する。トピック操作画面1000は、検索用トピックの選択及び学習用トピックの学習等に使用する画面である。トピック操作画面1000の詳細は図10を用いて説明する。検索結果表示画面1100は、関連文章データ105を表示する画面である。検索結果表示画面1100の詳細は図11を用いて説明する。
図2は、実施例1のユーザ管理情報122のデータ構造の一例を示す図である。
ユーザ管理情報122は、ユーザID201、ユーザ名202、部署203、及び職位204から構成されるエントリを含む。一つのエントリは一人のユーザを表す。
ユーザID201は、ユーザ管理情報122のエントリを一意に識別するための識別情報を格納するフィールドである。ユーザ名202は、ユーザの名称を格納するフィールドである。部署203は、ユーザが所属する部署の情報を格納するフィールドである。職位204は、部署におけるユーザの職位の情報を格納するフィールドである。
ユーザ管理情報122は、予め設定されているものとする。なお、ユーザ端末102から送信されたユーザ登録要求、ユーザ更新要求、及びユーザ削除要求に基づいてユーザ管理情報122は更新される。
なお、ユーザ管理情報122に含まれるエントリは、パスワード等を格納するフィールドを含んでもよい。
図3は、実施例1のデータベース管理情報123のデータ構造の一例を示す図である。
データベース管理情報123は、DB ID301、DB名302、部署303、及び文章ID304から構成されるエントリを含む。一つのエントリは、一つのデータベース101に格納される一つの文章データ105を表す。
DB ID301は、データベース101を一意に識別するための識別情報を格納するフィールドである。DB名302は、データベース101の名称を格納するフィールドである。部署303は、データベース101を作成又は管理する部署の情報を格納するフィールドである。部署303には、部署203と同一の値が格納される。文章ID304は、データベース101に格納される文章データ105の識別情報を格納するフィールドである。なお、異なるデータベース101に格納される文章データ105の識別情報は重複してもよい。
データベース管理情報123は、データベース101の構築時に設定されるものとする。なお、データベースの追加処理、データベースの更新処理、及びデータベースの削除処理に基づいてデータベース管理情報123は更新される。
なお、データベース管理情報123に含まれるエントリは、文章データ105の名称及びサイズ等の情報を格納するフィールドを含んでもよい。
本実施例では、一つのデータベース101には、共通する属性、例えば、同一の部署の文章データ105が格納されている。ただし、前述したデータベースの構成に限定されない。例えば、異なる属性の文章データ105がデータベースに格納されてもよい。この場合、データベース管理情報123とは他に、文章データ105の属性を管理する情報を保持すればよい。例えば、部署等の属性を格納するフィールド及び文章データ105の識別情報を格納するフィールドから構成されるエントリを含む情報が考えられる。
なお、ユーザ管理情報122に含まれるエントリには、データベース101の識別情報を格納するフィールドを設けてもよい。この場合、データベース管理情報123に含まれるエントリは部署303を含まなくてもよい。
図4は、実施例1のトピック管理情報124のデータ構造の一例を示す図である。
トピック管理情報124は、トピックID401、トピック名402、単語403、及びDB ID404から構成されるエントリを含む。一つのエントリが一つのトピックを表す。
トピックID401は、トピック管理情報124のエントリを一意に識別するための識別情報を格納するフィールドである。トピック名402は、トピックの名称を格納するフィールドである。単語403は、トピックを構成する単語を格納するフィールドである。DB ID404は、トピックを構成する単語が抽出された文章データ105を格納するデータベース101の識別情報を格納するフィールドである。
文章データ管理モジュール121は、予め、コーパスに基づいてトピック管理情報124を生成する。例えば、データベース101に格納される文章データ105がコーパスとして用いられる。なお、データベース101に格納される文章データ105のモデルを用いてトピック管理情報124が生成されてもよい。なお、コーパスに基づくトピックの生成方法は公知の技術であるため、詳細な説明は省略する。
文章データ105の属性を文章データ単位に管理している場合、DB ID404の代わりに、部署等の属性を格納するフィールドを設けてもよい。すなわち、トピックと属性とを直接対応付けたエントリでもよい。
図5は、実施例1の学習履歴情報125のデータ構造の一例を示す図である。
学習履歴情報125は、履歴ID501、時間502、ユーザID503、操作504、トピックID505、内容506、及び理由507から構成されるエントリを含む。一つのエントリが一つの操作の履歴を表す。
履歴ID501は、学習履歴情報125のエントリを一意に識別するための識別情報を格納するフィールドである。時間502は、操作が行われた日時を格納するフィールドである。ユーザID503は、操作を行ったユーザの識別情報を格納するフィールドである。ユーザID503には、ユーザID201と同一の値が格納される。
操作504は、学習用トピックに対する操作の種別を示す情報を格納するフィールドである。トピックID505は、操作対象のトピックの識別情報を格納するフィールドである。トピックID505には、トピックID401と同一の値が格納される。内容506は、操作の具体的な内容を格納するフィールドである。理由507は、ユーザが操作を行った理由を格納するフィールドである。
学習履歴情報125は、後述する学習用トピックに対する操作に基づいて更新される。
図6は、実施例1の計算機100が実行するユーザ登録処理の一例を説明するフローチャートである。図7は、実施例1のユーザ端末102に表示されるログイン画面700の一例を示す図である。
ログイン画面700は、ユーザ名入力欄701、部署入力欄702、職位入力欄703、ログインボタン704、及び登録ボタン705を含む。
ユーザ名入力欄701は、ユーザ名を入力する欄である。部署入力欄702は、部署の名称を入力する欄である。職位入力欄703は、職位の名称を入力する欄である。ログインボタン704は、ログイン要求を送信するためのボタンである。登録ボタン705は、ユーザ登録要求を送信するためのボタンである。
なお、ログイン画面700には、パスワードを入力するパスワード入力欄が含まれてもよい。この場合、ユーザ管理情報122のエントリには、パスワードを格納するフィールドが含まれる。
アカウントの登録時には、ユーザは、ユーザ名入力欄701、部署入力欄702、及び職位入力欄703の全ての入力欄に値を設定する。また、ログイン時には、ユーザは、ユーザ名入力欄701、部署入力欄702、及び職位入力欄703の少なくともいずれかに値を設定する。
ユーザは、ログイン画面700を用いて計算機100にアクセスするためのアカウントを登録する。具体的には、ユーザは、ユーザ名入力欄701、部署入力欄702、及び職位入力欄703に値を設定し、登録ボタン705を操作する。この場合、ユーザ端末102は、ユーザ名、部署の名称、及び職位の名称を含むユーザ登録要求を計算機100に送信する。
なお、ユーザ端末102は、ユーザ登録要求を生成する時に、要求の種別を示す値を算出し、ユーザ登録要求に生成された値を含めてもよい。
計算機100の文章データ管理モジュール121は、ユーザ端末102からユーザ登録要求を受信する(ステップS101)。文章データ管理モジュール121は、アカウント管理モジュール134を呼び出す。
アカウント管理モジュール134は、受信したユーザ登録要求に基づいてユーザ管理情報122を更新し(ステップS102)、その後、処理を終了する。
具体的には、アカウント管理モジュール134は、ユーザ管理情報122にエントリを追加し、追加されたエントリのユーザID201に識別情報を設定する。また、アカウント管理モジュール134は、追加されたエントリのユーザ名202、部署203、及び職位204のそれぞれに、ユーザ登録要求に含まれる値を設定する。
なお、アカウント管理モジュール134は、ユーザ名、部署の名称、及び職位の名称の少なくともいずれかがユーザ登録要求に含まれていない場合、全ての入力欄への値の入力を促す通知をユーザ端末102に送信してもよい。
図8A及び図8Bは、実施例1の計算機100が新規文章データを登録する場合に実行する処理の概要を説明するフローチャートである。図9は、実施例1のユーザ端末102に表示される文章データ入力画面900の一例を示す図である。図10は、実施例1のユーザ端末102に表示されるトピック操作画面1000の一例を示す図である。図11は、実施例1の計算機100によって表示される検索結果表示画面1100の一例を示す図である。
アカウントを作成したユーザは、ログイン画面700を用いてログイン要求を計算機100に送信する。具体的には、ユーザは、ユーザ名入力欄701にユーザ名を入力し、ログインボタン704を操作する。ログイン要求にはユーザ名が含まれる。
なお、ユーザ端末102は、ログイン要求を生成する時に、要求の種別を示す値を算出し、ログイン要求に生成された値を含めてもよい。
文章データ管理モジュール121は、ユーザ端末102からログイン要求を受信した場合、以下で説明する処理を開始する。
文章データ管理モジュール121は、ユーザ管理情報122を用いてログイン処理を実行する(ステップS201)。
具体的には、アカウント管理モジュール134は、ユーザ管理情報122を参照して、ユーザ名202の値がログイン要求に含まれるユーザ名に一致するエントリを検索する。
ユーザ名202の値がログイン要求に含まれるユーザ名に一致するエントリが存在する場合、アカウント管理モジュール134は、文章データ入力画面900をユーザ端末102に表示し、ステップS202に進む。エントリが存在しない場合、アカウント管理モジュール134は、エラーを通知し、又は、ユーザ登録を行う旨の通知をユーザ端末102に送信する。
ここで、図9を用いて文章データ入力画面900を説明する。文章データ入力画面900は、文章データ入力欄901、データベース入力欄902、追加ボタン903、及び登録ボタン904を含む。
文章データ入力欄901は、データベース101へ登録する文章データの識別情報を入力する欄である。データベース入力欄902は、文章データを格納するデータベース101の識別情報を入力する欄である。追加ボタン903は、文章データ入力欄901及びデータベース入力欄902の組を追加するためのボタンである。登録ボタン904は、新規文章データ登録要求を送信するためのボタンである。
ユーザが登録ボタン904を操作した場合、文章データ入力欄901を用いて指定された文章データ及びデータベース入力欄902に設定されたデータベース101の識別情報を含む新規文章データ登録要求が、計算機100に送信される。
以上が文章データ入力画面900の説明である。図8A及び図8Bの説明に戻る。
次に、文章データ管理モジュール121は、新規文章データ登録要求を受信する(ステップS202)。具体的には、入出力モジュール131が、新規文章データ登録要求を受信する。
次に、文章データ管理モジュール121は、文章データの解析処理を実行し(ステップS203)、処理結果として、ユーザ端末102にトピック操作画面1000を表示するための表示データを出力する(ステップS204)。文章データの解析処理の詳細は図12を用いて説明する。文章データ管理モジュール121は、表示データを出力した後、待ち状態に移行する。
ここで、図10を用いてトピック操作画面1000について説明する。トピック操作画面1000は、トピック表示欄1001、学習用トピック操作欄1002、及び検索用トピック操作欄1003を含む。
トピック表示欄1001は、文章データの解析処理に基づいて選択された検索用トピック及び学習用トピックを表示する欄である。トピック表示欄1001には、トピックリスト1010が含まれる。トピックリスト1010は、選択ボタン1011、トピック名1012、トピック種別1013、及び単語1014から構成されるエントリを含む。一つのエントリが一つのトピックを表す。
トピック名1012は、トピック名402と同一のフィールドである。単語1014は、単語403と同一のフィールドである。
選択ボタン1011は、操作するエントリを選択するためのボタンである。本実施例では、ユーザが選択ボタン1011を操作した場合、学習用トピック操作欄1002又は検索用トピック操作欄1003が有効化される。トピック種別1013は、トピックの種別を示す値を格納するフィールドである。本実施例のトピック種別1013には、検索用トピックを表す「検索用」及び学習用トピックを表す「学習用」のいずれかが格納される。
学習用トピック操作欄1002は、学習用トピックに対する操作を指定する欄である。学習用トピック操作欄1002は、トピック追加ボタン1021、トピック削除ボタン1022、単語変更ボタン1023、及び理由入力欄1024を含む。学習用トピック操作欄1002を用いた操作は、第1更新要求として計算機100に送信される。第1更新要求には、操作種別、操作内容、トピックの識別情報、ユーザの識別情報、及び理由が含まれる。
なお、ユーザ端末102は、第1更新要求を生成する時に、要求の種別を示す値を算出し、第1更新要求に生成された値を含めてもよい。
トピック追加ボタン1021は、学習用トピックを追加するためのボタンである。ユーザがトピック追加ボタン1021を操作した場合、文章データ管理モジュール121は、後述する候補トピックリストをユーザ端末102に表示し、又は、追加するトピックの識別情報等を入力する画面をユーザ端末102に表示する。
トピック削除ボタン1022は、学習用トピックを削除するためのボタンである。ユーザがトピック削除ボタン1022を操作した場合、文章データ管理モジュール121は、トピックリスト1010から選択ボタン1011が操作されたエントリを削除する。
単語変更ボタン1023は、学習用トピックを構成する単語を修正するためのボタンである。ユーザが単語変更ボタン1023を操作した場合、文章データ管理モジュール121は、選択ボタン1011が操作されたエントリの単語1014に対する操作を有効化する。ユーザは、当該エントリの単語1014に単語を追加し、又は、単語を削除する。
理由入力欄1024は、トピック追加ボタン1021、トピック削除ボタン1022、及び単語変更ボタン1023のいずれかを操作した理由を設定する欄である。
検索用トピック操作欄1003は、検索用トピックに関する操作を指定する欄である。検索用トピック操作欄1003は、トピック種別変更ボタン1031及び検索開始ボタン1032を含む。検索用トピック操作欄1003を用いた操作は、第2更新要求又は検索要求として計算機100に送信される。第2更新要求には、操作種別及びユーザの識別情報が含まれる。また、検索要求には、ユーザの識別情報が含まれる。
なお、ユーザ端末102は、第2更新要求及び検索要求を生成する時に、要求の種別を示す値を算出し、第2更新要求及び検索要求に生成された値を含めてもよい。
トピック種別変更ボタン1031は、トピック種別1013の値を変更するためのボタンである。
ユーザがトピック種別変更ボタン1031を操作した場合、ユーザ端末102は、第2更新要求を計算機100に送信する。文章データ管理モジュール121は、第2更新要求を受信した場合、選択ボタン1011が操作されたエントリのトピック種別1013を変更する。具体的には、文章データ管理モジュール121は、変更前のトピック種別1013の値が「検索用」の場合、「学習用」に変更し、変更前のトピック種別1013の値が「学習用」の場合、「検索用」に変更する。
検索開始ボタン1032は、検索用トピックを用いて関連文章データ105を検索する文章検索処理の実行を指示するためのボタンである。
ユーザが検索開始ボタン1032を操作した場合、ユーザ端末102は、検索要求を計算機100に送信する。
文章データ管理モジュール121は、検索要求を受信した場合、トピックリスト1010から検索用トピックのリストを生成し、当該リストを用いて文章検索処理を実行する。以下の説明では、検索用トピックのリストを検索リストと記載する。検索リストには、検索開始ボタン1032の操作時にトピックリスト1010に登録されている検索用トピックが含まれる。なお、文章データ管理モジュール121は、選択ボタン1011が操作された検索用トピックのみを含む検索リストを生成してもよい。
以上がトピック操作画面1000の説明である。図8A及び図8Bの説明に戻る。
次に、文章データ管理モジュール121は、トピック操作画面1000を操作することによって出力された要求をユーザ端末102から受信した場合、処理を再開する。まず、文章データ管理モジュール121は、受信した要求が検索要求であるか否かを判定する(ステップS205)。なお、要求の種別の判別方法としては、要求に含まれる値に基づいて判別する方法、又は、要求の種別を表す値に基づいて判別する方法が考えられる。
文章データ管理モジュール121は、受信した要求が検索要求でないと判定された場合、受信した要求が第1更新要求であるか否かを判定する(ステップS206)。
受信した要求が第1更新要求であると判定された場合、文章データ管理モジュール121は、トピックリスト1010、トピック管理情報124、及び学習履歴情報125を更新する(ステップS207)。その後、文章データ管理モジュール121は待ち状態に移行する。具体的には、以下のような処理が実行される。
トピック選択モジュール132は、第1更新要求に基づいてトピックリスト1010を更新する。トピック選択モジュール132は、第1更新要求が単語の変更を伴う要求である場合、第1更新要求に基づいてトピック管理情報124の単語403を更新する。
また、トピック選択モジュール132は、学習履歴情報125にエントリを追加し、追加されたエントリの履歴ID501に識別情報を設定する。トピック選択モジュール132は、追加されたエントリの各フィールドに、第1更新要求に含まれる各値を設定する。以上がステップS207の処理の説明である。
受信した要求が第2更新要求であると判定された場合、文章データ管理モジュール121は、第2更新要求に基づいてトピックリスト1010を更新する(ステップS208)。その後、文章データ管理モジュール121は待ち状態に移行する。
ステップS205において、受信した要求が検索要求であると判定された場合、文章データ管理モジュール121は、文章検索処理を実行し(ステップS209)、処理結果として、ユーザ端末102に検索結果表示画面1100を表示するための表示データを出力する(ステップS210)。文章検索処理の詳細は、図12を用いて説明する。
ここで、図11を用いて検索結果表示画面1100について説明する。検索結果表示画面1100は、文章データ選択欄1101、関連文章データリスト1102、確定ボタン1103、及び中止ボタン1104を含む。
文章データ選択欄1101は、新規文章データの識別情報を選択する欄である。文章データ選択欄1101に対応する新規文章データに関する検索結果が関連文章データリスト1102に表示される。
関連文章データリスト1102は、文章検索処理によって検索された文章データ105のリストであり、DB ID1111及び文章ID1112から構成されるエントリを含む。一つのエントリが一つの文章データ105に対応する。
DB ID1111及び文章ID1112は、DB ID301及び文章ID304と同一のフィールドである。
ユーザは、関連文章データリスト1102を操作することによって、計算機100に表示要求を送信してもよい。表示要求には、データベース101の識別情報及び文章データ105の識別情報が含まれる。計算機100は、表示要求を受信した場合、データベース101から文章データ105を読み出し、読み出した文章データ105をユーザ端末102に送信する。
確定ボタン1103は、新規文章データの登録を確定させるためのボタンである。中止ボタン1104は、新規文章データの登録を中止させるためのボタンである。
ユーザが確定ボタン1103を操作した場合、新規文章データの登録確定指示が計算機に送信される。ユーザが中止ボタン1104を操作した場合、新規文章データの登録中止指示が計算機に送信される。ここでは、確定ボタン1103が操作されたものとする。
以上が検索結果表示画面1100の説明である。図8A及び図8Bの説明に戻る。
次に、文章データ管理モジュール121は、指定されたデータベース101に新規文章データを格納する(ステップS211)。その後、計算機100は、処理を終了する。
なお、ユーザが中止ボタン1104を操作した場合、文章データ管理モジュール121は、新規文章データをデータベース101に格納せずに、処理を終了する。この場合、新規文章データの登録は行われないが、トピックの学習結果は有効な情報としてトピック管理情報124及び学習履歴情報125等に反映される。
図12は、実施例1の計算機100が実行する新規文章データの解析処理の一例を説明するフローチャートである。なお、複数の新規文章データが入力された場合、各新規文章データに対して以下で説明する処理が繰り返し実行される。
文章データ管理モジュール121は、空のトピックリスト1010を生成した後、新規文章データに対応する文章を単語に分解する(ステップS301)。例えば、文章データ管理モジュール121は、形態素解析に基づいて、文章を単語に分解する。
文章データ管理モジュール121は、トピック管理情報124を用いて、新規文章データに含まれるトピックの中から検索用トピックを特定する(ステップS302)。例えば、以下のような処理が実行される。
トピック選択モジュール132は、トピック管理情報124の単語403を参照して、分解された単語を含むエントリを検索する。トピック選択モジュール132は、検索されたエントリに対応するトピックを候補トピックに設定する。トピック選択モジュール132は、候補トピックの識別情報から構成される候補トピックリストを生成し、メモリ112に一時的に格納する。
トピック選択モジュール132は、候補トピックリストから候補トピックを一つ選択する。トピック選択モジュール132は、新規文章データに含まれる、候補トピックを構成する単語の数を計測する。トピック選択モジュール132は、単語の数に基づいてトピックの選択基準となる第1判定値を算出する。第1判定値は、新規文章データとトピックとの間の関連性を示す値である。
例えば、単語の数を第1判定値として算出してもよいし、単語に設定された重要度及び単語の数を掛け合わせた値の合計値を第1判定値として算出してもよい。なお、単語に設定された重要度は、トピックにおいて重要な単語であるか否かを示す値である。
トピック選択モジュール132は、全ての候補トピックの第1判定値を算出した後、第1判定値に基づいて所定の数の候補トピックを検索用トピックとして選択する。
例えば、トピック選択モジュール132は、第1判定値の大きい順に所定の数の検索用トピックを選択してもよいし、第1判定値が閾値より大きい候補トピックを検索用トピックとして選択してもよい。
トピック選択モジュール132は、選択された検索用トピックをトピックリスト1010に設定する。以上がステップS302の処理の説明である。
次に、文章データ管理モジュール121は、ステップS202の処理結果に基づいて検索用トピックに該当しない候補トピックを特定する(ステップS303)。
具体的には、トピック選択モジュール132は、候補トピックリスト及びトピックリスト1010を比較することによって、検索用トピックに該当しない候補トピックを特定する。このとき、トピック選択モジュール132は、特定された候補トピックにフラグを付与する。本実施例では、フラグを用いて検索用トピックに該当しない候補トピックを特定しているが、これに限定されない。
次に、文章データ管理モジュール121は、特定された候補トピックの中から学習用トピックを選択する(ステップS304)。学習用トピックの選択方法としては以下のような三つの方法が考えられる。
(選択方法1)トピック選択モジュール132は、ユーザ管理情報122を参照し、ログイン中のユーザに対応するエントリの部署203の値を取得する。
トピック選択モジュール132は、ステップS303において特定された候補トピックの中から候補トピックを一つ選択する。トピック選択モジュール132は、トピック管理情報124のDB ID404から、選択された候補トピックの生成元のデータベースの識別情報を取得し、さらに、データベース管理情報123を参照して、DB ID301の値が取得したデータベースの識別情報と一致するエントリの部署303の値を取得する。
トピック選択モジュール132は、部署203の値及び部署303の値を比較し、部署303の値が部署203の値に一致する場合、選択された候補トピックを学習用トピックとして選択する。トピック選択モジュール132は、学習用トピックをトピックリスト1010に設定する。
トピック選択モジュール132は、ステップS303において特定された全ての候補トピックに対して同様の処理を実行する。
学習用トピックの表示数が予め設定されている場合、トピック選択モジュール132は、第1判定値に基づいて、所定の数の学習用トピックを選択する。例えば、トピック選択モジュール132は、第1判定値が小さい順に所定の数の学習用トピックを選択する。
(選択方法2)トピック選択モジュール132は、ステップS303において特定された候補トピックの中から候補トピックを一つ選択する。トピック選択モジュール132は、学習履歴情報125を参照し、トピックID505の値が選択された候補トピックの識別情報に一致するエントリの数を学習回数として算出する。トピック選択モジュール132は、全ての候補トピックに対して同様の処理を実行する。
トピック選択モジュール132は、学習回数が閾値より小さい候補トピックを学習用トピックとして選択する。トピック選択モジュール132は、学習用トピックをトピックリスト1010に設定する。
学習用トピックの表示数が予め設定されている場合、トピック選択モジュール132は、学習回数が小さい順に、所定の数の学習用トピックを選択する。
なお、閾値は、予め設定された値でもよいし、候補トピックの学習回数の平均値でもよい。また、トピック管理情報124に検索用トピックとして選択された回数を格納するフィールドを設け、当該回数と学習回数との比率を閾値として用いてもよい。
(選択方法3)トピック選択モジュール132は、第1判定値が閾値より小さい候補トピックを学習用トピックとして選択する。
学習用トピックの表示数が予め設定されている場合、トピック選択モジュール132は、第1判定値が小さい順に、所定の数の学習用トピックを選択する。以上がステップS304の処理の説明である。
次に、文章データ管理モジュール121は、表示データを生成する(ステップS305)。その後、文章データ管理モジュール121は、新規文章データの解析処理を終了する。
具体的には、トピック選択モジュール132は、トピックリスト1010を表示するための表示データを生成する。
なお、図12を用いて説明した検索用トピック及び学習用トピックの選択方法は、一例であって、これに限定されない。
図13は、実施例1の文章データ管理モジュール121が実行する文章検索処理の一例を説明するフローチャートである。なお、各新規文章データに対して以下で説明する処理が繰り返し実行される。
本実施例の検索エンジン133は、各文章データ105に対して検索リストに含まれるトピックの有無を判定し、当該判定結果に基づいて新規文章データと文章データ105との間の関連性を示す値(第2判定値)を算出する。以下、詳細な処理について説明する。
検索エンジン133は、トピックリスト1010から検索リストを生成し、検索リストに含まれる検索用トピックの数と同数の成分のベクトルv、dを生成する(ステップS401)。このとき、検索エンジン133は、空の関連文章データリストを生成する。
なお、ベクトルvは、新規文章データの特徴を表すベクトルであり、ベクトルdは、比較する文章データ105の特徴と表すベクトルである。一つの成分には一つの検索用トピックが対応付けられる。この時点では、各ベクトルの成分は全て0に設定される。
次に、検索エンジン133は、ベクトルvの成分を決定する(ステップS402)。例えば、以下のような処理が実行される。
検索エンジン133は、検索リストから検索用トピックを選択する。検索エンジン133は、新規文章データを参照して、選択された検索用トピックを構成する単語の数を計測する。検索エンジン133は、計測された単語の数を選択された検索用トピックに対応する成分の値に設定する。検索エンジン133は、検索リストに含まれる全ての検索用トピックに対して同様の処理を実行する。
次に、検索エンジン133は、文章データ105のループ処理を開始する(ステップS403)。具体的には、検索エンジン133は、文章データ105を一つ選択する。
次に、検索エンジン133は、ベクトルdの成分を決定する(ステップS404)。例えば、以下のような処理が実行される。
検索エンジン133は、検索リストから検索用トピックを選択する。検索エンジン133は、選択された文章データ105を参照して、選択された検索用トピックを構成する単語を検索する。選択された文章データ105に選択された検索用トピックを構成する単語が一つ以上含まれる場合、検索エンジン133は、選択された検索用トピックに対応する成分に「1」を設定する。
次に、検索エンジン133は、ベクトルv、dに基づいて、第2判定値を算出する(ステップS405)。例えば、ベクトルv及びベクトルdの内積を第2判定値として算出する方法が考えられる。
次に、検索エンジン133は、第2判定値が閾値より大きいか否かを判定する(ステップS406)。閾値は予め設定されているものとする。なお、閾値は適宜更新できる。
第2判定値が閾値以下であると判定された場合、検索エンジン133は、ステップS408に進む。
第2判定値が閾値より大きいと判定された場合、検索エンジン133は、選択された文章データ105を関連文章データ105として関連文章データリストに登録する(ステップS407)。その後、文章データ管理モジュール121は、ステップS408に進む。
ステップS408では、文章データ管理モジュール121は、全ての文章データ105について処理が完了したか否かを判定する(ステップS408)。
全ての文章データ105について処理が完了していないと判定された場合、文章データ管理モジュール121は、ベクトルdを初期化した後、ステップS403に戻り、同様の処理を実行する。
全ての文章データ105について処理が完了したと判定された場合、文章データ管理モジュール121は、関連文章データリストに登録された文章データ105を第2判定値の大きい順にソートする(ステップS409)。
次に、文章データ管理モジュール121は、関連文章データリストを表示するための表示データを生成する(ステップS410)。その後、文章データ管理モジュール121は、文章検索処理を終了する。
なお、ループ処理では、データベース101に格納された全ての文章データ105を対象としていたが、これに限定されない。例えば、部署303に、ユーザが所属する部署が設定されたデータベース101に格納される文章データ105のみを対象としてもよい。
なお、図13を用いて説明した関連文章データの特定方法は、一例であって、これに限定されない。
なお、本実施例では、関連文章データの検索時に、学習用トピックの学習が行われているがこれに限定されない。例えば、文章データ管理モジュール121は、ステップS304において、学習用トピックのみを格納したリストを作成し、周期的、イベントの発生時、又は、ユーザからの要求を受け付けた場合、当該リストを提示するようにしてもよい。この場合、検索用トピックを表示する画面と、学習用トピックを表示する画面とは別々に表示される。トピックの学習を行うタイミングを調整することによって、ユーザの負担を低減できる。
以上で説明したように、本実施例の文章データ管理モジュール121は、新規文章データの登録時に、候補トピックの中から学習用トピックを選択し、ユーザに提示する。候補トピックは、新規文章データの解析結果に基づいて特定されるトピックであることからユーザに関連するトピックと考えられる。そのため、ユーザが保持する知識及びノウハウを活用したトピックの学習(修正)が可能となる。したがって、学習効率が高いトピックの学習が可能となる。
(選択方法1)に基づいて選択された学習用トピックを学習することによって、ユーザが扱うデータベース101に関連するトピックを効率的に学習できる。(選択方法2)に基づいて選択された学習用トピックを学習することによって、特定のトピックに偏った学習を避けることができる。(選択方法3)に基づいて選択された学習用トピックを学習することによって、精度が低い可能性があるトピックの集中的な学習が可能となる。
また、検索用トピックと併せて学習用トピックをユーザに提示することによって、ユーザの負担を低減したトピックの学習が可能となる。これによって、トピックの精度を高めることができる。
実施例2では、新規文章データの解析処理が実施例1と異なる。以下、実施例1との差異を中心に実施例2について説明する。
実施例2の計算機システムの構成は、実施例1の計算機システムの構成と同一である。実施例2の各装置のハードウェア構成及びソフトウェア構成は、実施例1の各装置のハードウェア構成及びソフトウェア構成と同一である。
実施例2では、文章データの解析処理が一部異なる。図14は、実施例2の計算機100が実行する新規文章データの解析処理の一例を説明するフローチャートである。
トピック選択モジュール132は、ステップS303の処理の後、分野特定処理を実行する(ステップS351)。具体的には、以下のような処理が実行される。
トピック選択モジュール132は、ユーザ管理情報122を参照し、ログイン中のユーザに対応するエントリのユーザID201の値を取得する。
トピック選択モジュール132は、学習履歴情報125を参照し、ユーザID503が取得したユーザの識別情報と一致するエントリを検索する。トピック選択モジュール132は、トピックID505毎に、検索されたエントリの数を算出する。トピック選択モジュール132は、エントリの数が閾値より大きいトピックを特定する。
トピック選択モジュール132は、トピック管理情報124を参照し、トピックID401が特定されたトピックの識別情報に一致するエントリを検索する。トピック選択モジュール132は、検索されたエントリのDB ID404の値を取得する。データベース101の識別情報は、ユーザと関連性が高い分野を特定する情報として用いることができる。
トピック選択モジュール132は、トピック管理情報124を参照し、ステップS303において特定された候補トピックのDB ID404に、取得したデータベース101の識別情報が格納されていない候補トピックを、候補トピックから除外する。以上がステップS351の処理の説明である。
その他の処理は実施例1の処理と同一である。
ユーザが保持する知識及びノウハウは、ユーザが所属する部署又は役職のみからは完全に把握することができない。そこで、実施例2では、ユーザが行った学習の実績に基づいて、ユーザが知識及びノウハウを保持する分野を特定し、当該分野に関連するトピックを学習用トピックとして選択できる。すなわち、実施例2によれば、ユーザと関連性が高い分野のトピックから学習用トピックを選択することができる。これによって、学習の精度を高めることができる。
実施例3では、特定の条件を満たす学習履歴が反映されたトピック管理情報124を用いる点が実施例1と異なる。以下、実施例1との差異を中心に実施例3について説明する。
実施例3の計算機システムの構成は、実施例1の計算機システムの構成と同一である。実施例3の各装置のハードウェア構成及びソフトウェア構成は、実施例1の各装置のハードウェア構成及びソフトウェア構成と同一である。なお、実施例3では、ユーザによる修正が行われる前の初期状態のトピック管理情報124がマスタ情報としてメモリ112に格納される。
実施例3では、文章データ入力画面900が実施例1の画面と異なる。図15は、実施例3のユーザ端末102に表示される文章データ入力画面900の一例を示す図である。
文章データ入力画面900は、種別入力欄951及び値入力欄952の組を一つ以上含む。種別入力欄951及び値入力欄952は、反映する学習履歴を指定するための情報を入力する欄である。具体的には、種別入力欄951には、「時間」、「ユーザ」、「部署」、及び「職位」のいずれかが設定される。値入力欄952には、種別入力欄951で指定された情報の具体的な値が設定される。
例えば、種別入力欄951が「時間」である場合、値入力欄952には時間の範囲を指定する値が設定される。種別入力欄951が「ユーザ」の場合、値入力欄952にはユーザの識別情報が設定される。種別入力欄951が「部署」又は「職務」の場合、値入力欄952には部署の名称又は職務の名称が設定される。以下の説明では、種別入力欄951及び値入力欄952の値の組合せを変換条件情報と記載する。
実施例3では、新規文章データ登録要求には変換条件情報が含まれる。
実施例3では、新規文章データを登録する場合に実行する処理が一部異なる。図16A及び図16Bは、実施例3の計算機100が新規文章データを登録する場合に実行する処理の概要を説明するフローチャートである。
文章データ管理モジュール121は、ステップS202の処理が実行された後、トピック管理情報124の変換処理を実行する(ステップS251)。
文章データ管理モジュール121は、学習履歴情報125を参照し、変換条件情報に合致するエントリを検索する。文章データ管理モジュール121は、時間が古い順に検索されたエントリの操作をマスタ情報に適用する。これによって、特定のユーザ、部署、職務、又は、時間範囲の学習履歴を反映したトピック管理情報124を生成できる。
なお、文章データ管理モジュール121は、特定されたエントリを用いたロールバック処理を実行することによってトピック管理情報124を生成してもよい。
なお、ステップS251の状態では、メモリ112には、初期状態のトピック管理情報124、現在のトピック管理情報124、及び変換処理によって生成されたトピック管理情報124が格納される。
ステップS203以降の処理は、変換処理によって生成されたトピック管理情報124を用いて実行される。ただし、ステップS207では、変換処理によって生成されたトピック管理情報124及び現在のトピック管理情報124の二つの情報が更新される。その他の処理は、実施例1と同一の処理である。
実施例3によれば、特定のユーザ、部署、職務、又は、時間範囲に着目したトピックの学習及び関連文章データ105の検索が可能となるため、柔軟なシステムの運用が可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 データベース
102 ユーザ端末
105 文章データ
111 プロセッサ
112 メモリ
113 ネットワークインタフェース
121 文章データ管理モジュール
122 ユーザ管理情報
123 データベース管理情報
124 トピック管理情報
125 学習履歴情報
131 入出力モジュール
132 トピック選択モジュール
133 検索エンジン
134 アカウント管理モジュール
700 ログイン画面
900 文章データ入力画面
1000 トピック操作画面
1100 検索結果表示画面

Claims (12)

  1. 文章データを格納するデータベース及び前記データベースを管理する計算機を備える計算機システムであって、
    前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、
    前記記憶装置は、前記文章データを特徴付ける単語であって、データベースに登録される新規文章データと関連する関連文章データの検索キーとして用いられる単語を管理する単語管理情報を格納し、
    前記演算装置は、
    前記新規文章データを含む登録要求を受信した場合、前記単語管理情報を用いて前記新規文章データを解析し、前記新規文章データに含まれる単語を特定する第1処理と、
    前記特定された単語の中から前記検索キーの候補となる単語である候補キーを特定する第2処理と、
    前記候補キーの中から前記検索キーを選択する第3処理と、
    前記検索キーに選ばれなかった前記候補キーの中から学習用単語を選択する第4処理と、
    前記学習用単語を表示するための第1表示データを生成し、前記第1表示データを出力する第5処理と、
    前記検索キーに基づいて前記関連文章データを検索して、前記関連文章データを表示するための第2表示データを生成し、前記第2表示データを出力する第6処理と、を実行することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記記憶装置は、前記学習用単語に対する操作の履歴を管理する履歴情報を保持し、
    前記第5処理では、前記演算装置は、
    ユーザが操作するユーザ端末に前記第1表示データを出力し、
    前記ユーザ端末から前記学習用単語の修正操作を受信し、
    対象の学習用単語、前記対象の学習用単語の修正内容、及び前記対象の学習用単語を修正したユーザの識別情報から構成されるエントリを前記履歴情報に登録することを特徴とする計算機システム。
  3. 請求項2に記載の計算機システムであって、
    前記記憶装置は、前記ユーザのアカウントを管理するユーザ管理情報及び前記データベースを管理するデータベース管理情報を保持し、
    前記単語管理情報は、前記単語の識別情報及び前記単語の生成元のデータベースの識別情報から構成されるエントリを含み、
    前記ユーザ管理情報は、前記ユーザの識別情報及び前記ユーザの特徴を示す属性情報から構成されるエントリを含み、
    前記データベース管理情報は、前記データベースの識別情報及び前記属性情報から構成されるエントリを含み、
    前記第4処理では、前記演算装置は、
    前記ユーザ管理情報を参照して、前記新規文章データの入力を行うユーザの前記属性情報を取得し、
    前記単語管理情報を参照して、前記候補キーの生成元のデータベースの識別情報を取得し、
    前記データベース管理情報を参照して、前記候補キーの生成元のデータベースに対応付けられる属性情報を取得し、
    前記ユーザ管理情報から取得された前記属性情報が、前記データベース管理情報から取得された前記属性情報に一致する前記候補キーを前記学習用単語として選択することを特徴とする計算機システム。
  4. 請求項2に記載の計算機システムであって、
    前記第4処理では、前記演算装置は、
    前記履歴情報を参照して、前記検索キーに選ばれなかった候補キーに関連するエントリの数を算出し、
    前記算出されたエントリの数に基づいて、前記学習用単語を選択することを特徴とする計算機システム。
  5. 請求項2に記載の計算機システムであって、
    前記第3処理では、前記演算装置は、
    前記新規文章データと前記新規文章データから特定された単語との間の関連性を示す判定値を算出し、
    前記判定値に基づいて、前記検索キーを選択し、
    前記第4処理では、前記演算装置は、前記判定値に基づいて前記学習用単語を選択することを特徴とする計算機システム。
  6. 請求項2に記載の計算機システムであって、
    前記単語管理情報は、前記単語の識別情報及び前記単語の生成元のデータベースの識別情報から構成されるエントリを含み、
    前記第3処理では、前記演算装置は、
    前記履歴情報を参照して、前記新規文章データの入力を行うユーザが修正した前記学習用単語を特定し、
    前記単語管理情報を参照して、前記候補キーの生成元のデータベースの識別情報及び前記特定された学習用単語の生成元のデータベースの識別情報を取得し、
    前記候補キーの生成元のデータベースの識別情報が、前記特定された学習用単語の生成元のデータベースの識別情報に一致しない前記候補キーを当該候補キーから除外することを特徴とする計算機システム。
  7. 文章データを格納するデータベース及び前記データベースを管理する計算機を備える計算機システムにおける文章データの検索方法であって、
    前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、
    前記記憶装置は、前記文章データを特徴付ける単語であって、データベースに登録される新規文章データと関連する関連文章データの検索キーとして用いられる単語を管理する単語管理情報を格納し、
    前記文章データの検索方法は、
    前記演算装置が、前記新規文章データを含む登録要求を受信した場合、前記単語管理情報を用いて前記新規文章データを解析し、前記新規文章データに含まれる単語を特定する第1のステップと、
    前記演算装置が、前記特定された単語の中から前記検索キーの候補となる単語である候補キーを特定する第2のステップと、
    前記演算装置が、前記候補キーの中から前記検索キーを選択する第3のステップと、
    前記演算装置が、前記検索キーに選ばれなかった前記候補キーの中から学習用単語を選択する第4のステップと、
    前記演算装置が、前記学習用単語を表示するための第1表示データを生成し、前記第1表示データを出力する第5のステップと、
    前記演算装置が、前記検索キーに基づいて前記関連文章データを検索して、前記関連文章データを表示するための第2表示データを生成し、前記第2表示データを出力する第6のステップと、を含むことを特徴とする文章データの検索方法。
  8. 請求項7に記載の文章データの検索方法であって、
    前記記憶装置は、前記学習用単語に対する操作の履歴を管理する履歴情報を保持し、
    前記第5のステップは、
    前記演算装置が、ユーザが操作するユーザ端末に前記第1表示データを出力するステップと、
    前記演算装置が、前記ユーザ端末から前記学習用単語の修正操作を受信するステップと、
    前記演算装置が、対象の学習用単語、前記対象の学習用単語の修正内容、及び前記対象の学習用単語を修正したユーザの識別情報から構成されるエントリを前記履歴情報に登録するステップと、を含むことを特徴とする文章データの検索方法。
  9. 請求項8に記載の文章データの検索方法であって、
    前記記憶装置は、前記ユーザのアカウントを管理するユーザ管理情報及び前記データベースを管理するデータベース管理情報を保持し、
    前記単語管理情報は、前記単語の識別情報及び前記単語の生成元のデータベースの識別情報から構成されるエントリを含み、
    前記ユーザ管理情報は、前記ユーザの識別情報及び前記ユーザの特徴を示す属性情報から構成されるエントリを含み、
    前記データベース管理情報は、前記データベースの識別情報及び前記属性情報から構成されるエントリを含み、
    前記第4のステップは、
    前記演算装置が、前記ユーザ管理情報を参照して、前記新規文章データの入力を行うユーザの前記属性情報を取得するステップと、
    前記演算装置が、前記単語管理情報を参照して、前記候補キーの生成元のデータベースの識別情報を取得するステップと、
    前記演算装置が、前記データベース管理情報を参照して、前記候補キーの生成元のデータベースに対応付けられる属性情報を取得するステップと、
    前記演算装置が、前記ユーザ管理情報から取得された前記属性情報が、前記データベース管理情報から取得された前記属性情報に一致する前記候補キーを前記学習用単語として選択するステップと、を含むことを特徴とする文章データの検索方法。
  10. 請求項8に記載の文章データの検索方法であって、
    前記第4のステップは、
    前記演算装置が、前記履歴情報を参照して、前記検索キーに選ばれなかった候補キーに関連するエントリの数を算出するステップと、
    前記演算装置が、前記算出されたエントリの数に基づいて、前記学習用単語を選択するステップと、を含むことを特徴とする文章データの検索方法。
  11. 請求項8に記載の文章データの検索方法であって、
    前記第3のステップは、
    前記演算装置が、前記新規文章データと前記新規文章データから特定された単語との間の関連性を示す判定値を算出するステップと、
    前記演算装置が、前記判定値に基づいて、前記検索キーを選択するステップと、を含み、
    前記第4のステップは、前記演算装置が、前記判定値に基づいて前記学習用単語を選択するステップと、を含むことを特徴とする文章データの検索方法。
  12. 請求項8に記載の文章データの検索方法であって、
    前記単語管理情報は、前記単語の識別情報及び前記単語の生成元のデータベースの識別情報から構成されるエントリを含み、
    前記第3のステップは、
    前記演算装置が、前記履歴情報を参照して、前記新規文章データの入力を行うユーザが修正した前記学習用単語を特定するステップと、
    前記演算装置が、前記単語管理情報を参照して、前記候補キーの生成元のデータベースの識別情報及び前記特定された学習用単語の生成元のデータベースの識別情報を取得するステップと、
    前記演算装置が、前記候補キーの生成元のデータベースの識別情報が、前記特定された学習用単語の生成元のデータベースの識別情報に一致しない前記候補キーを当該候補キーから除外するステップと、を含むことを特徴とする文章データの検索方法。
JP2017143251A 2017-07-25 2017-07-25 計算機システム及び文章データの検索方法 Pending JP2019023834A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017143251A JP2019023834A (ja) 2017-07-25 2017-07-25 計算機システム及び文章データの検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017143251A JP2019023834A (ja) 2017-07-25 2017-07-25 計算機システム及び文章データの検索方法

Publications (1)

Publication Number Publication Date
JP2019023834A true JP2019023834A (ja) 2019-02-14

Family

ID=65369005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017143251A Pending JP2019023834A (ja) 2017-07-25 2017-07-25 計算機システム及び文章データの検索方法

Country Status (1)

Country Link
JP (1) JP2019023834A (ja)

Similar Documents

Publication Publication Date Title
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
JP4368336B2 (ja) カテゴリ設定支援方法及び装置
US10628467B2 (en) Log-aided automatic query expansion approach based on topic modeling
CN101183379A (zh) 用于检索数据的方法和系统
US10013238B2 (en) Predicting elements for workflow development
US10482169B2 (en) Recommending form fragments
CN111443964B (zh) 更新用户界面的方法、设备和计算机可读存储介质
JP2010282241A (ja) ファイル管理装置、ファイル管理システム、ファイル管理方法、および、プログラム
US20130132322A1 (en) Scalable, rule-based processing
US11640432B2 (en) Document retrieval apparatus and document retrieval method
US11244000B2 (en) Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP2021124913A (ja) 検索装置
US20190265954A1 (en) Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram
JPH05324728A (ja) 情報検索装置
CN114237588A (zh) 一种代码仓库选择方法、装置、设备及存储介质
US10528575B2 (en) Collaborative search of databases
CN111723134A (zh) 信息处理方法、装置、电子设备及存储介质
CN115329753A (zh) 一种基于自然语言处理的智能数据分析方法和系统
JP2009093581A (ja) 類義語検索管理システム
JP2019023834A (ja) 計算機システム及び文章データの検索方法
WO2021111769A1 (ja) 検索装置
JP2019164504A (ja) 計算機システム及び文章データ管理方法
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
JP6884172B2 (ja) 計算機システム及び文書の評価方法