JP7027696B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP7027696B2
JP7027696B2 JP2017085884A JP2017085884A JP7027696B2 JP 7027696 B2 JP7027696 B2 JP 7027696B2 JP 2017085884 A JP2017085884 A JP 2017085884A JP 2017085884 A JP2017085884 A JP 2017085884A JP 7027696 B2 JP7027696 B2 JP 7027696B2
Authority
JP
Japan
Prior art keywords
occurrence
tag
tags
module
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017085884A
Other languages
English (en)
Other versions
JP2018185601A (ja
Inventor
翔太郎 三沢
智子 大熊
友紀 谷口
元樹 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2017085884A priority Critical patent/JP7027696B2/ja
Priority to US15/832,529 priority patent/US20180307669A1/en
Publication of JP2018185601A publication Critical patent/JP2018185601A/ja
Application granted granted Critical
Publication of JP7027696B2 publication Critical patent/JP7027696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、指定された特定の番組と内容が類似する番組を精度よく検索することのできる番組検索装置及び番組検索プログラムを提供することを課題とし、出現頻度情報と固有表現情報を記憶する番組情報記憶部と、番組情報を取得する番組情報取得部と、指定された指定番組に関して番組情報取得部が取得した番組情報における表現の出現頻度をカウントする出現頻度カウント部と、前記出現頻度と番組情報記憶部から読み出した特定の検索対象番組に関する出現頻度情報とに基づき、指定番組と検索対象番組との間での表現の共起の度合いを計算するとともに、固有表現重み値によって重み付ける処理をすることによって関連度を算出する類似度計算部と、類似度計算部が算出した関連度に基づいて選択された検索対象番組を出力する検索結果提示部を、番組検索装置が備えるようにすることが開示されている。
特許文献2には、学習データから不要なデータを取り除いて精度を向上させることを課題とし、素性取得部は、学習データ保持部に保持されるデータや、システムに投入される評価データから、機械学習を行う際に用いる素性情報を抽出し、機械学習部は、学習データ保持部に保持されている各学習データの評価と、素性取得部から得られた各データの素性情報をもとに、素性とその評価の間の対応関係を学習し、データ選択部は、機械学習部から得られる学習結果に基づいて、学習データ保持部に保持されている学習データの候補の中から機械学習に不適切な学習データを削除することが開示されている。
特許文献3には、連続的に与えられる文書集合から高精度な同義タグを推定して出力することを課題とし、入力文書(マイクロブログの文書集合)に付与されたタグの個数をカウントし、タグが1つだけの文書に限定して、単語とタグによる文書出現頻度(FS)と、タグを1つに限定しないで、単語とタグによる文書出現頻度(FA)を求め、FSからタグ間類似度を求め、同じく、FAからタグ間類似度を求め、2つのタグ間類似度が共に、所定の値(閾値)以上であれば同義タグと判定することが開示されている。
特開2011-043908号公報 特開2005-181928号公報 特開2014-052694号公報
ユーザーの操作によって、タグ付け作業が行われている。したがって、そのタグ付け作業でミスが発生する可能性がある。例えば、誤ったタグを付与することが起こり得る。
一方、単語とタグによる文書出現頻度を用いた技術では、同義タグを推定して出力することはできるが、誤ったタグ付けを検出することはできず、その結果機械学習の制度が低下してしまう。
本発明は、本発明の構成をもたない場合と比較して、誤ったタグ付けを行うことによって機械学習の精度が低下してしまうことを防止することができる情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文書内で共起するタグを抽出する第1の抽出手段と、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段を有する情報処理装置である。
請求項2の発明は、前記通知手段は、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値の統計的値と予め定められた閾値とを比較することによって、通知を行うか否かを判断する、請求項1に記載の情報処理装置である。
請求項3の発明は、前記統計的値として、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値の平均値、最頻値、中央値、最小値、重み付け平均値のいずれか1つ又はこれらの組み合わせを用い、前記通知手段は、前記統計的値が前記閾値未満又は以下である場合に、通知を行う、請求項2に記載の情報処理装置である。
請求項4の発明は、前記共起確率又は前記共起回数の期待値は、タグの出現頻度に基づき正規化して算出した値である、請求項1に記載の情報処理装置である。
請求項5の発明は、前記共起確率又は前記共起回数の期待値は、タグの順序に応じた共起関係における確率又は共起回数の期待値である、請求項1に記載の情報処理装置である。
請求項6の発明は、前記共起確率又は前記共起回数の期待値は、タグの直前又は直後のタグに限定した確率若しくは共起回数の期待値、又は、対象としているタグとの距離に応じて重み付けした確率若しくは共起回数の期待値である、請求項5に記載の情報処理装置である。
請求項7の発明は、前記第1の抽出手段、前記第2の抽出手段、又は、前記通知手段のいずれか1つ以上は、出現頻度が高いタグは対象としない、請求項1に記載の情報処理装置である。
請求項8の発明は、前記通知手段によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合、該タグよりも前のデータ、又は、該タグ以降のデータを対象として、前記第1の抽出手段による処理を行う、請求項1から7のいずれか一項に記載の情報処理装置である。
請求項の発明は、コンピュータを、文書内で共起するタグを抽出する第1の抽出手段と、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、誤ったタグ付けを行うことによって機械学習の精度が低下してしまうことを防止することができる。
請求項2の情報処理装置によれば、共起確率又は共起回数の期待値の統計的値と予め定められた閾値とを比較することによって、通知を行うか否かを判断することができる。
請求項3の情報処理装置によれば、統計的値として、共起確率又は共起回数の期待値の平均値、最頻値、中央値、最小値、重み付け平均値のいずれか1つ又はこれらの組み合わせを用いることができる。
請求項4の情報処理装置によれば、共起確率又は共起回数の期待値をタグの出現頻度に基づき正規化して算出した値とすることができる。
請求項5の情報処理装置によれば、共起確率又は共起回数の期待値をタグの順序に応じた共起関係における確率又は共起回数の期待値とすることができる。
請求項6の情報処理装置によれば、共起確率又は共起回数の期待値をタグの直前又は直後のタグに限定した確率若しくは共起回数の期待値、又は、対象としているタグとの距離に応じて重み付けした確率若しくは共起回数の期待値とすることができる。
請求項7の情報処理装置によれば、出現頻度が高いタグは対象としないことができる。
請求項8の情報処理装置によれば、通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合、そのタグよりも前のデータ、又は、そのタグ以降のデータを対象として、処理を行うことができる。
請求項の情報処理プログラムによれば、誤ったタグ付けを行うことによって機械学習の精度が低下してしまうことを防止することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示す説明図である。 共起確率テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 共起確率テーブルのデータ構造例を示す説明図である。 タグ頻度テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 タグ候補メニューの提示例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する学習データの生成処理について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
固有表現抽出技術がある。つまり、文書内から自動的に固有名詞を抽出し、抽出した固有名詞の種類(以下、カテゴリともいう)を推定する技術である。
固有表現抽出技術において、固有名詞を自動的に抽出するためには、正解のデータである学習データが必要である。一般的に、予め文書を用意した上で、作業者(アノテーター、ユーザーともいわれる。以下、ユーザーともいう)がタグ付け作業により、学習データを生成する。
例えば、以下のような文書(データ)を用意する。
----- ----- ----- ----- -----
アメリカンフットボールの全日本統一選手権が18日、横浜ドームで2万人を集めて行われた。
----- ----- ----- ----- -----
このような文に対して、以下のように、作業者によってタグ付けが行われて、学習データを生成する。
----- ----- ----- ----- -----
<Sports>アメリカンフットボール</Sports>の<Event>全日本統一選手権</Event>が<Timex>18日</Timex>、<Facility>横浜ドーム</Facility>で<Countx>2万人</Countx>を集めて行われた。
----- ----- ----- ----- -----
なお、<>又は</>がタグであり、<>又は</>で囲まれた「Sport」、「Event」等がタグの種類を示しており、<>と</>とで囲まれた文字列がそのタグ種類であることを示している。例えば、<Sport>と</Sport>とで囲まれた「アメリカンフットボール」はSport種類の用語であり、<Event>と</Event>とで囲まれた「全日本統一選手権」はEvent種類の用語であることを示している。なお、この例では、Event種類、Facility種類が固有名詞である。
学習データを生成する際、以下の例のように誤ってタグ付けされるケースが生じてしまう。
----- ----- ----- ----- -----
(1)<Company>ABC銀</Company>行は、
(2)<City>ABC銀行</City>は、----- ----- ----- ----- -----
(1)の例は、「位置ずれ」が発生している例である。この誤りは、形態素解析によって抽出(発見を含む)し、そして、異常である旨を通知(警告アラート等を含む)することが可能である。
しかし、(2)のように誤ったタグが付与されてしまった場合、前述した特許文献に記載の技術では、抽出することは困難である。
このようなタグ付けの誤りは、機械学習のモデルに大きな悪影響を与え、固有表現の抽出精度が低下してしまう。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、文書にタグ(アノテーションともいわれる)付けを行うものであって、図1の例に示すように、未タグ付けデータ記憶モジュール105、学習データ記憶モジュール145、学習データ生成モジュール150を有している。特に、そのタグを用いて機械学習用のデータを生成するものである。前述したように、タグ付けは、作業者が行うため、タグ付けの誤りが発生することがある。情報処理装置100は、その誤ったタグ付けを抽出し、異常である旨の通知を行うものである。なお、文書(ファイルともいわれる)とは、テキストデータを少なくとも含み、数値データ、図形データ、画像データ、動画データ、音声データ等を含んでいてもよく、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、電子メール、Webページ等を含む。
単位文書(例えば、1記事、1メール等)内は内容が比較的統一されていると考えられる。すなわち、同一文書内に含まれるタグの種類には一貫性があるといえる。本実施の形態である情報処理装置100は、その関係性に着目したものである。関係性として、例えば、会社や経済の話題の中に自然物(例えば、肩、バニラ等)が入る可能性は低いこと、イベントの後に日付や場所は入りやすいが、年齢は入りにくい等がある。情報処理装置100は、既に付与したタグ付きデータをもとに同一文書内に出現するタグの共起関係を数値化し、対象としている文書に対するタグ付与の段階(学習データとして採用する前の段階)で、その関係にそぐわない場合に異常である旨を通知する。
未タグ付けデータ記憶モジュール105は、学習データ生成モジュール150のタグ付けモジュール110と接続されている。未タグ付けデータ記憶モジュール105は、学習データ生成モジュール150によって、機械学習における学習データを生成するための文書を記憶している。つまり、タグ付けモジュール110によって、これからタグ付けの対象となる文書等を記憶している。例えば、一般的には、タグ付けが行われていない文書を記憶しているが、一部にタグ付けが行われている文書、タグ付けが行われているが、未だそのタグが正しいか否かの検証が行われていない文書等を記憶していてもよい。
学習データ生成モジュール150は、タグ付けモジュール110、タグ共起関係抽出モジュール115、タグ付け済データ記憶モジュール120、タグ間共起統計情報抽出モジュール125、タグ正当性判断モジュール130、通知モジュール135、タグ付け修正モジュール140を有している。
なお、学習データ生成モジュール150(特に、タグ共起関係抽出モジュール115、タグ間共起統計情報抽出モジュール125、又は、通知モジュール135のいずれか1つ以上)は、出現頻度が高いタグは対象としないようにしてもよい。ここで「出現頻度が高いタグ」とは、タグの出現頻度が予め定められた閾値より高い又は以上である場合をいう。出現頻度は、既にタグ付けが行われた文書(タグ付け誤りの修正が行われた文書)内において、単に出現回数であってもよいし、その文書内の全てのタグ数に対する割合であってもよい。
タグ付けモジュール110は、未タグ付けデータ記憶モジュール105、タグ共起関係抽出モジュール115と接続されており、タグ共起関係抽出モジュール115にタグ付結果112である文書を渡す。タグ付けモジュール110は、未タグ付けデータ記憶モジュール105から抽出した文書に対して、ユーザーの操作に応じてタグ付けを行う。例えば、タグ付けモジュール110は、マウス、キーボード、タッチパネルを兼ねる液晶ディスプレイ等に対してのユーザーによる操作を受け付け、文書に対してのタグ付けを行う。
また、タグ付けモジュール110は、未タグ付けデータ記憶モジュール105から抽出した文書にタグを付与するにあたって、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率(複数(例えば、2つ)のタグが、単位文書内で出現する確率)から、タグ共起関係抽出モジュール115によって抽出されたタグと共起確率が高いタグを提示するようにしてもよい。ユーザーによるタグ付与作業に用いられる機能である。「共起確率が高いタグ」として、例えば、共起確率が予め定められた閾値より高い又は以上となるタグ、又は、共起確率を降順にソートした場合に、予め定められた順位未満又は以下となるタグ(つまり、順位が上位であるタグ)がある。もちろんのことながら、複数のタグを提示する場合は、共起確率の高いものから順に提示してもよい。
タグ共起関係抽出モジュール115は、タグ付けモジュール110、タグ正当性判断モジュール130と接続されており、タグ付けモジュール110からタグ付結果112を受け取る。タグ共起関係抽出モジュール115は、タグ付結果112の文書内で共起するタグを抽出する。ここで「文書内で共起するタグ」とは、文書内で用いられている複数(一般的には2つ、以下、2つの場合を例示する)種類のタグの組み合わせをいう。つまり、1文書内で付与されたタグを抽出し、タグの共起状況を認識する。
なお、タグ共起関係抽出モジュール115が対象とする文書として、ユーザーがタグ付けを行った文書の他に、タグ間共起統計情報抽出モジュール125が用いた「既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率」における「既にタグ付けが行われた文書」(いわゆる学習データとなった文書)としてもよい。
また、タグ共起関係抽出モジュール115は、通知モジュール135によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合、そのタグよりも前のデータ、又は、そのタグ以降のデータを対象として、処理を行うようにしてもよい。ここで「通知モジュール135によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合」として、例えば、内容(話題)の変化があった場合が該当する。そこで、そのタグを境界にして、文書を分割する。つまり、内容(話題)が変わった後については、学習データ生成モジュール150での処理を行う。したがって、文書全体における共起関係ではなく、その後半部分での共起関係が対象となる。また、内容(話題)が変わる前の部分(そのタグよりも前の部分)についても、学習データ生成モジュール150での処理を行うようにしてもよい。つまり、既に処理を行った部分についても、学習データ生成モジュール150での処理を再度行うようにしてもよい。文書全体における共起関係ではなく、その前半部分での共起関係が対象となるので、共起関係が変わることとなり、異常である旨の通知を行うタグが異なるものとなる可能性があるからである。異常とは、タグ付与が間違っている可能性があることである。具体的には、共起するタグが出現する確率が一般的には低いにもかかわらず、その共起するタグ対象としている文書内で発生することである。
タグ付け済データ記憶モジュール120は、タグ間共起統計情報抽出モジュール125、タグ正当性判断モジュール130、タグ付け修正モジュール140、学習データ記憶モジュール145と接続されている。タグ付け済データ記憶モジュール120は、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率を記憶している。また、タグ付け修正モジュール140によって修正されたタグ付け文書(誤ったタグ付けが修正された文書)を記憶している。そして、タグ付け済データ記憶モジュール120内のタグ付け文書を機械学習用のデータとして、学習データ記憶モジュール145に記憶させる。タグ付け済データ記憶モジュール120から学習データ記憶モジュール145にタグ付け文書を記憶するタイミングは、タグ付け済データ記憶モジュール120にタグ付け文書が記憶される毎であってもよいし、予め定められた期間毎であってもよいし、予め定められた数のタグ付け文書が記憶された場合であってもよい。
ここで、共起確率は、タグの出現頻度に基づき正規化して算出した値としてもよいし、タグの順序に応じた共起関係における確率としてもよい。さらに、後者(タグの順序に応じた共起関係における確率)においては、タグの直前又は直後のタグに限定した確率としてもよい。タグの順序にも関係があると仮定した場合である。具体的には、イベントの後、前には日付が付与されやすいので、イベントを示すタグの直前又は直後に日付を示すタグがある場合等が多くなりやすいからである。又は、後者(タグの順序に応じた共起関係における確率)においては、対象としているタグとの距離に応じて重み付けした確率としてもよい。例えば、3文字前(又は、3文字後)は0.2、2文字前(又は、2文字後)は0.5、1文字前(又は、1文字後)は1.0との重み付けを行えばよい。
タグ間共起統計情報抽出モジュール125は、タグ付け済データ記憶モジュール120、タグ正当性判断モジュール130と接続されている。タグ間共起統計情報抽出モジュール125は、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、タグ共起関係抽出モジュール115によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する。なお、「既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率」は、タグ付け済データ記憶モジュール120が記憶しているものを用いてもよい。また、タグ間共起統計情報抽出モジュール125は、タグ付け済データ記憶モジュール120内の各文書を対象としてタグ間の共起確率を算出してもよい。そして、その算出結果をタグ付け済データ記憶モジュール120に記憶させてもよい。共起確率として、条件付き確率等を算出してもよい。例えば、Timeタグがある文書内にOrganizationタグがある確率等を算出する。
タグ正当性判断モジュール130は、タグ共起関係抽出モジュール115、タグ付け済データ記憶モジュール120、タグ間共起統計情報抽出モジュール125、通知モジュール135と接続されている。タグ正当性判断モジュール130は、タグ間共起統計情報抽出モジュール125によって抽出された共起確率に基づいて、タグ共起関係抽出モジュール115によって抽出された共起するタグが異常であるか否かの判断を行う。
また、タグ正当性判断モジュール130は、タグ間共起統計情報抽出モジュール125によって抽出された共起確率の統計的値と予め定められた閾値とを比較することによって、異常である旨の通知を行うか否かを判断するようにしてもよい。
ここでの統計的値として、タグ間共起統計情報抽出モジュール125によって抽出された共起確率の平均値、最頻値、中央値、最小値、重み付け平均値のいずれか1つ又はこれらの組み合わせを用いてもよい。例えば、あるタグ(具体例として、Per等)が重要などわかっていた場合、重み付け平均値を用いることも可能である。
通知モジュール135は、タグ正当性判断モジュール130、タグ付け修正モジュール140と接続されている。通知モジュール135は、タグ間共起統計情報抽出モジュール125によって抽出された共起確率に基づいて、タグ共起関係抽出モジュール115によって抽出された共起するタグが異常である旨の通知を行う。なお、タグ正当性判断モジュール130による判断結果にしたがって、異常である旨を通知する。ここでの通知とは、対象となっているタグが誤りである可能性が高いことを示すものである。なお、「通知」として、液晶ディスプレイ等の表示装置への表示の他に、3D(Dimensions)映像としての出力を含めてもよく、さらに、スピーカー等の音声出力装置による音声の出力、振動、プリンタ等の印刷装置での印刷等を組み合わせてもよい。もちろんのことながら、タグ正当性判断モジュール130によって通知不要と判断された場合は、通知は行われない。
タグ付け修正モジュール140は、タグ付け済データ記憶モジュール120、通知モジュール135と接続されている。タグ付け修正モジュール140は、通知モジュール135によって通知されたタグを対象として、ユーザーの操作によって修正が行われる。修正後のタグ付き文書をタグ付け済データ記憶モジュール120に記憶させる。また、通知モジュール135によって通知されなかった場合は、ユーザーによる修正なしで、タグ付け文書がタグ付け済データ記憶モジュール120に記憶される。なお、前述したように、通知モジュール135によってタグについて異常である旨の通知が行われたにもかかわらず、ユーザーによっては修正が行われなかった場合は、タグ共起関係抽出モジュール115によって、そのタグよりも前のデータ、又は、そのタグ以降のデータを対象として、再度の処理を行うようにしてもよい。
学習データ記憶モジュール145は、学習データ生成モジュール150のタグ付け済データ記憶モジュール120と接続されている。学習データ記憶モジュール145は、タグ付け済データ記憶モジュール120内に記憶されている文書を、機械学習用の学習データとして記憶する。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
学習データ生成装置200A、学習データ生成装置200B、未タグ付けデータ記憶装置205、学習データ生成装置245、ユーザー端末250A、ユーザー端末250B、ユーザー端末250C、固有表現抽出装置280は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、学習データ生成装置200A、学習データ生成装置200B、未タグ付けデータ記憶装置205、学習データ生成装置245、固有表現抽出装置280による機能は、クラウドサービスとして実現してもよい。学習データ生成装置200Aは、情報処理装置100を有している。学習データ生成装置200Bは、学習データ生成モジュール150を有している。未タグ付けデータ記憶装置205は、未タグ付けデータ記憶モジュール105を有している。学習データ生成装置245は、学習データ記憶モジュール145を有している。
例えば、ユーザー端末250Aが、ユーザーの操作によって、学習データ生成装置200Aに接続し、情報処理装置100の処理によって、学習データ生成装置200A内の学習データ記憶モジュール145に学習データを蓄積する。そして、固有表現抽出装置280が、その学習データ生成装置200A内の学習データ記憶モジュール145の学習データを用いて機械学習を行い、固有表現抽出モデルを生成する。そして、固有表現抽出装置280は、ユーザー端末250からのユーザーの指示にしたがって、文書から固有名詞を抽出する。
また、未タグ付けデータ記憶モジュール105を有している未タグ付けデータ記憶装置205、学習データ生成モジュール150を有している学習データ生成装置200B、学習データ記憶モジュール145を有している学習データ生成装置245の連携処理によって、学習データ生成装置245内の学習データ記憶モジュール145に学習データを蓄積するようにしてもよい。つまり、例えば、ユーザー端末250Bが、ユーザーの操作によって、学習データ生成装置200Bに接続し、学習データ生成モジュール150の処理によって、未タグ付けデータ記憶装置205内の未タグ付けデータ記憶モジュール105のデータを用いて、学習データ生成装置245内の学習データ記憶モジュール145に学習データを蓄積してもよい。そして、固有表現抽出装置280が、その学習データ生成装置245内の学習データ記憶モジュール145の学習データを用いて機械学習を行い、固有表現抽出モデルを生成してもよい。
図3は、本実施の形態による処理例を示すフローチャートである。
ステップS302では、タグ付けモジュール110が、未タグ付けデータ記憶モジュール105から未タグ付けデータ(文書)を受け付ける。例えば、図4(a)に示すような未タグ付けデータ410を受け付ける。具体的には、未タグ付けデータ410は、「ABC百貨店は本日から、開店時間を一時間繰り上げ、午前九時開店とする。」である。
ステップS304では、タグ付けモジュール110が、ユーザーの操作にしたがって、タグ付け処理を行う。例えば、図4(b)に示すように、未タグ付けデータ410からタグ付けデータ420を生成する。具体的には、タグ付けデータ420は、「<Organization>ABC百貨店</Organization>は<Time>本日</Time>から、開店時間を<Multiplication>一時間</Multiplication>繰り上げ、<Time>午前九時</Time>開店とする。」である。
ステップS306では、タグ共起関係抽出モジュール115が、タグ付けされたデータから共起関係を抽出する。例えば、図4(c)に示すように、タグ付けデータ420からタグ抽出結果430を生成する。具体的には、タグ抽出結果430は、「<Organization><Time><Multiplication><Time>」である。
そして、組み合わせを抽出して、共起タグの組み合わせ440を生成する。具体的には、共起タグの組み合わせ440は、「Org(Organizationの略)-Time」、「Org-Multi(Multiplicationの略)」、「Time-Multi」である。
ステップS308では、タグ間共起統計情報抽出モジュール125が、ステップS306で抽出した共起関係にあるタグの組み合わせについて、既在文書における共起確率を抽出する。ここでの既在文書とは、誤りのないタグ付けが行われた文書(タグ付け済データ記憶モジュール120内のタグ付けの誤りが修正された文書)である。例えば、共起確率テーブル500から条件付き共起確率を抽出する。図5は、共起確率テーブル500のデータ構造例を示す説明図である。共起確率テーブル500は、2つのタグの組み合わせにおける条件付き確率を記憶している。つまり、1列目のセル内のタグがある文書において、1行目の各セル内のタグがある確率を示している。例えば、2行3列目のセル(0.6)は、Timeタグがある文書においてOrgタグがある確率を示している。
ステップS310では、タグ正当性判断モジュール130が、各タグについて、他タグとの共起確率の平均値を算出する。例えば、図6に示すように、条件付き共起確率の平均値を算出する。つまり、タグ毎に、共起確率テーブル500におけるタグ同士の条件付き確率に着目する。具体的には、Orgタグについて、共起確率テーブル500から、条件付き共起確率P(Org|Time)=0.6、そして条件付き共起確率P(Org|Multi)=0.2を抽出し、その平均値0.4を算出している。Timeタグについて、共起確率テーブル500から、条件付き共起確率P(Time|Org)=0.4、そして条件付き共起確率P(Time|Multi)=0.3を抽出し、その平均値0.35を算出している。Multiタグについて、共起確率テーブル500から、条件付き共起確率P(Multi|Org)=0.2、そして条件付き共起確率P(Multi|Time)=0.4を抽出し、その平均値0.3を算出している。
ステップS312では、タグ正当性判断モジュール130が、ステップS310で算出した他タグとの共起確率の平均値は、予め定められた閾値以下であるか否かを判断し、閾値以下の場合はステップS314へ進み、それ以外の場合はステップS320へ進む。例えば、予め定められた閾値を「0.33」とした場合、Multiタグの条件付き共起確率の平均値は「0.3」であるので、MultiタグについてステップS314以下の処理を行う。
ステップS314では、通知モジュール135が、異常である旨を通知する。
ステップS316では、タグ付け修正モジュール140が、修正指示を受け付ける。
ステップS318では、タグ付け修正モジュール140が、修正処理を行う。そして、タグ付け修正モジュール140が、修正済みのデータをタグ付け済データ記憶モジュール120に記憶させる。
ステップS320では、タグ間共起統計情報抽出モジュール125が、既在の共起確率を修正する。
ステップS322では、学習データ記憶モジュール145が、学習データとして記憶する。
ステップS324では、全てのタグについて、処理を終了したか否かを判断し、終了した場合は処理を終了し(ステップS399)、それ以外の場合はステップS308へ戻る。
図5の例に示した共起確率テーブル500は条件付き確率であるが、ステップS308で図7の例に示す共起確率テーブル700を用いてもよい。共起確率テーブル700は、条件付き確率ではなく、単なる共起確率を記憶している。つまり、1つの文書内において、2つのタグの組み合わせが現れる確率を示しており、共起確率テーブル700の右上半分に共起確率を記憶している。
また、共起確率テーブル500、共起確率テーブル700における共起確率は、タグの出現順序を考慮していないが、タグの順序に応じた共起確率としてもよい。つまり、Aタグ、Bタグの順に発生した共起確率と、Bタグ、Aタグの順に発生した共起確率を別々に算出してもよい。さらに、タグの直前又は直後のタグに限定した共起確率としてもよい。
さらに、共起確率テーブル500又は共起確率テーブル700における共起確率は、タグの出現頻度に基づき正規化した値としてもよい。例えば、タグ毎の出現頻度は、タグ頻度テーブル800によって管理されている。図8は、タグ頻度テーブル800のデータ構造例を示す説明図である。タグ頻度テーブル800は、タグ欄810、出現回数欄820、出現頻度欄830を有している。タグ欄810は、タグを記憶している。出現回数欄820は、そのタグの出現回数を記憶している。出現頻度欄830は、そのタグの出現頻度を記憶している。
タグ頻度テーブル800は、既にタグが付与された文書(タグ付け済データ記憶モジュール120内の文書)からタグを抽出し、その回数を計数し、出現頻度を算出したものである。出現頻度は、(そのタグの出現回数)/(全タグの出現回数)によって算出される。
出現頻度が予め定められた閾値より大又は以上であるタグについては、ステップS306、ステップS308、又は、ステップS314の処理を行わないようにしてもよい。つまり、出現頻度が高いタグでは、共起確率はどのような文書でも高くなってしまい、情報処理装置100が誤りのタグを検出するためには貢献しないからである。
図9は、本実施の形態による処理例を示すフローチャートである。ステップS902からステップS916までの処理は、図3の例に示したフローチャートのステップS302からステップS316までの処理と同等である。そして、ステップS930からステップS936までの処理は、図3の例に示したフローチャートのステップS318からステップS324までの処理と同等である。
ステップS902では、タグ付けモジュール110が、未タグ付けデータ記憶モジュール105から未タグ付けデータを受け付ける。
ステップS904では、タグ付けモジュール110が、ユーザーの操作にしたがって、タグ付け処理を行う。
ステップS906では、タグ共起関係抽出モジュール115が、タグ付けされたデータから共起関係を抽出する。
ステップS908では、タグ間共起統計情報抽出モジュール125が、ステップS906で抽出した共起関係にあるタグの組み合わせについて、既在文書における共起確率を抽出する。
ステップS910では、タグ正当性判断モジュール130が、各タグについて、他タグとの共起確率の平均値を算出する。
ステップS912では、タグ正当性判断モジュール130が、ステップS910で算出した他タグとの共起確率の平均値は、閾値以下であるか否かを判断し、閾値以下の場合はステップS914へ進み、それ以外の場合はステップS932へ進む。
ステップS914では、通知モジュール135が、異常である旨を通知する。
ステップS916では、タグ付け修正モジュール140が、修正指示を受け付ける。
ステップS918では、タグ付け修正モジュール140が、ユーザーによって正しいタグであると認められたか否かを判断し、認められた場合はステップS920へ進み、それ以外の場合はステップS930へ進む。
ステップS920では、タグ付け修正モジュール140が、そのタグを境界にして、そのタグより前のデータ(A)と、そのタグ以降のデータ(B)に分割する。例えば、図10に示すように、文書1000内の対象タグ1010が、情報処理装置100によって誤りであると判断されたが、ユーザーによって正しいタグであると認められた場合(つまり、修正が行われなかった場合)、文書1000を、(A)対象タグ1010よりも前にあるデータである前データ1020と、(B)対象タグ1010以降のデータである後データ1030に分割する。本来は1つの文書1000で取り扱われないような内容(つまり、異常である旨が通知されるタグの組み合わせ)が記載されている場合が該当する。
ステップS922では、タグ付け修正モジュール140が、データ(A)に対して、本フローチャートによる処理を再度行うか否かをユーザーに尋ねる。
ステップS924では、再度行う場合はステップS926へ進み、それ以外の場合はステップS928へ進む。
ステップS926では、データ(A)に対して、本フローチャートによる処理を再度行う。再度処理を行うことになるが、全体として、タグの組み合わせが減少し、不要なタグの処理が減少する。
ステップS928では、データ(B)に対して、本フローチャートによる処理を行う。データ(B)については、一般的には、タグの組み合わせが減少し、不要なタグの処理が減少する。
ステップS930では、タグ付け修正モジュール140が、修正処理を行う。そして、タグ付け修正モジュール140が、修正済みのデータをタグ付け済データ記憶モジュール120に記憶させる。
ステップS932では、タグ間共起統計情報抽出モジュール125が、既在の共起確率を修正する。
ステップS934では、学習データ記憶モジュール145が、学習データとして記憶する。
ステップS936では、全てのタグについて、処理を終了したか否かを判断し、終了した場合は処理を終了し(ステップS999)、それ以外の場合はステップS908へ戻る。
図11は、本実施の形態(主に、タグ付けモジュール110)による処理例を示すフローチャートである。
ステップS1102では、未タグ付けデータ記憶モジュール105から未タグ付けデータを受け付ける。
ステップS1104では、ユーザーの操作にしたがって、タグ付け処理を行う。なお、ステップS1104におけるタグ付け処理は、図3の例に示したステップS304におけるタグ付け処理のように、文書内の全てのタグ付けを処理させるものではなく、ユーザーの操作によって1つのタグ付けが行われることである。つまり、1つのタグ付けが行われる都度、ステップS1106以降の処理を行う。
また、2回目以降のステップS1104の処理(ステップS1110でNoで戻ってきた場合の処理)では、ステップS1108で提示されたタグを選択してタグ付け処理を行うようにしてもよい。
ステップS1106では、そのタグに対して、既在文書における共起確率の高い順にタグを抽出する。
ステップS1108では、次に付すタグの候補として、ステップS1106で抽出したタグを提示する。例えば、図12に示すタグ候補メニュー1200を提示する。タグ候補メニュー1200では、<Time>タグの付与処理が行われた後に、図5の例に示した共起確率テーブル500を用いて、<Time>タグがある場合の共起確率の高い順にタグを選択可能に並べたものである。つまり、<Time>タグがある場合の条件付き確率が0.7である<Per>タグ、<Even>タグ、0.6である<Org>タグ、<Loc>タグ、0.4である<Multi>タグ、0.3である<Prod>タグの順に並べて提示している。ユーザーの操作によって、タグ候補メニュー1200内のタグが選択され、タグ付け処理が行われる。
ステップS1110では、終了か否かを判断し、終了の場合は処理を終了し(ステップS1199)、それ以外の場合はステップS1104へ戻る。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図13に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1301を用い、記憶装置としてRAM1302、ROM1303、HD1304を用いている。HD1304として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。タグ付けモジュール110、タグ共起関係抽出モジュール115、タグ間共起統計情報抽出モジュール125、タグ正当性判断モジュール130、通知モジュール135、タグ付け修正モジュール140、学習データ生成モジュール150等のプログラムを実行するCPU1301と、そのプログラムやデータを記憶するRAM1302と、本コンピュータを起動するためのプログラム等が格納されているROM1303と、未タグ付けデータ記憶モジュール105、タグ付け済データ記憶モジュール120、学習データ記憶モジュール145としての機能を有する補助記憶装置(フラッシュ・メモリ等であってもよい)であるHD1304と、キーボード、マウス、タッチスクリーン、マイク、カメラ(視線検知カメラ等を含む)等に対する利用者の操作(動作、音声、視線等を含む)に基づいてデータを受け付ける受付装置1306と、CRT、液晶ディスプレイ、スピーカー等の出力装置1305と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1307、そして、それらをつないでデータのやりとりをするためのバス1308により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図13に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図13に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図13に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
また、前述の実施の形態の説明内での比較処理において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
また、前述の例では、タグ間共起統計情報抽出モジュール125は、共起確率を抽出する例を用いて説明したが、共起確率の代わりに共起回数の期待値を用いてもよい。単位文書内の共起回数を考慮することで、単位文書内で少数共起するものと多数共起するものの区別が可能になるからである。「共起確率」とあるのを「共起回数の期待値」と読み替えればよい。つまり、共起確率テーブル500、共起確率テーブル700に記載される値として共起回数の期待値を用い、新規データのタグ毎の共起回数をカウントし、それらの分布の距離(KL情報量等)、類似度(コサイン類似度)等を用いて異常を検知すればよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…未タグ付けデータ記憶モジュール
110…タグ付けモジュール
112…タグ付結果
115…タグ共起関係抽出モジュール
120…タグ付け済データ記憶モジュール
125…タグ間共起統計情報抽出モジュール
130…タグ正当性判断モジュール
135…通知モジュール
140…タグ付け修正モジュール
145…学習データ記憶モジュール
150…学習データ生成モジュール
200…学習データ生成装置
205…未タグ付けデータ記憶装置
245…学習データ生成装置
250…ユーザー端末
280…固有表現抽出装置
290…通信回線

Claims (9)

  1. 文書内で共起するタグを抽出する第1の抽出手段と、
    既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、
    前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段
    を有する情報処理装置。
  2. 前記通知手段は、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値の統計的値と予め定められた閾値とを比較することによって、通知を行うか否かを判断する、
    請求項1に記載の情報処理装置。
  3. 前記統計的値として、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値の平均値、最頻値、中央値、最小値、重み付け平均値のいずれか1つ又はこれらの組み合わせを用い、
    前記通知手段は、前記統計的値が前記閾値未満又は以下である場合に、通知を行う、
    請求項2に記載の情報処理装置。
  4. 前記共起確率又は前記共起回数の期待値は、タグの出現頻度に基づき正規化して算出した値である、
    請求項1に記載の情報処理装置。
  5. 前記共起確率又は前記共起回数の期待値は、タグの順序に応じた共起関係における確率又は共起回数の期待値である、
    請求項1に記載の情報処理装置。
  6. 前記共起確率又は前記共起回数の期待値は、タグの直前又は直後のタグに限定した確率若しくは共起回数の期待値、又は、対象としているタグとの距離に応じて重み付けした確率若しくは共起回数の期待値である、
    請求項5に記載の情報処理装置。
  7. 前記第1の抽出手段、前記第2の抽出手段、又は、前記通知手段のいずれか1つ以上は、出現頻度が高いタグは対象としない、
    請求項1に記載の情報処理装置。
  8. 前記通知手段によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合、該タグよりも前のデータ、又は、該タグ以降のデータを対象として、前記第1の抽出手段による処理を行う、
    請求項1から7のいずれか一項に記載の情報処理装置。
  9. コンピュータを、
    文書内で共起するタグを抽出する第1の抽出手段と、
    既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、
    前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段
    として機能させるための情報処理プログラム。
JP2017085884A 2017-04-25 2017-04-25 情報処理装置及び情報処理プログラム Active JP7027696B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017085884A JP7027696B2 (ja) 2017-04-25 2017-04-25 情報処理装置及び情報処理プログラム
US15/832,529 US20180307669A1 (en) 2017-04-25 2017-12-05 Information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017085884A JP7027696B2 (ja) 2017-04-25 2017-04-25 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2018185601A JP2018185601A (ja) 2018-11-22
JP7027696B2 true JP7027696B2 (ja) 2022-03-02

Family

ID=63853889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017085884A Active JP7027696B2 (ja) 2017-04-25 2017-04-25 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20180307669A1 (ja)
JP (1) JP7027696B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708952B (zh) * 2020-06-18 2023-10-20 小红书科技有限公司 一种标签推荐方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091961A (ja) 2000-09-14 2002-03-29 Communication Research Laboratory コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
JP2013084216A (ja) 2011-10-12 2013-05-09 Ntt Docomo Inc 定型文判別装置及び定型文判別方法
US20150186503A1 (en) 2012-10-12 2015-07-02 Tencent Technology (Shenzhen) Company Limited Method, system, and computer readable medium for interest tag recommendation
CN105512110A (zh) 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
JP2016099750A (ja) 2014-11-20 2016-05-30 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
JP3489331B2 (ja) * 1996-04-19 2004-01-19 株式会社豊田中央研究所 情報選択音声出力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091961A (ja) 2000-09-14 2002-03-29 Communication Research Laboratory コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
JP2013084216A (ja) 2011-10-12 2013-05-09 Ntt Docomo Inc 定型文判別装置及び定型文判別方法
US20150186503A1 (en) 2012-10-12 2015-07-02 Tencent Technology (Shenzhen) Company Limited Method, system, and computer readable medium for interest tag recommendation
JP2016099750A (ja) 2014-11-20 2016-05-30 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム
CN105512110A (zh) 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dietmar Jannach et al.著,田中克己・角谷和俊監訳,情報推薦システム入門 理論と実践,初版,共立出版株式会社,2012年06月25日,p.286~292
玉城悠仁,外2名,検索エンジンとコーパスを利用した英文の名詞語彙誤り検出の一手法,第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) [online],電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2017年02月27日
谷本太郁由,太田学,検索エンジンを用いた動詞名詞コロケーションに基づく英文動詞誤りの検出と修正,情報処理学会研究報告 データベースシステム(DBS)[CD-ROM],一般社団法人情報処理学会,2010年12月15日,No.151,p.1~7

Also Published As

Publication number Publication date
JP2018185601A (ja) 2018-11-22
US20180307669A1 (en) 2018-10-25

Similar Documents

Publication Publication Date Title
CN105631393A (zh) 信息识别方法及装置
JP6237168B2 (ja) 情報処理装置及び情報処理プログラム
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5786630B2 (ja) 情報処理装置及び情報処理プログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5891875B2 (ja) 情報処理装置及び情報処理プログラム
JP7027696B2 (ja) 情報処理装置及び情報処理プログラム
CN111046627A (zh) 一种中文文字显示方法及系统
JP6596848B2 (ja) アクセス権推定装置及びアクセス権推定プログラム
JP7027757B2 (ja) 情報処理装置及び情報処理プログラム
US11165737B2 (en) Information processing apparatus for conversion between abbreviated name and formal name
US9170725B2 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method that detect associated documents based on distance between documents
JP2017215714A (ja) 情報処理装置及び情報処理プログラム
JP2017045106A (ja) 情報処理装置及び情報処理プログラム
JP2013069182A (ja) 情報処理装置及び情報処理プログラム
JP2022003446A (ja) 情報処理装置
JP5510221B2 (ja) 情報処理装置及び情報処理プログラム
JP2021018520A (ja) 情報処理装置、情報処理方法及びプログラム
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP6476988B2 (ja) 情報処理装置及び情報処理プログラム
US20210191991A1 (en) Information processing apparatus and non-transitory computer readable medium
JP6736742B1 (ja) 帳票処理プログラム、帳票処理装置、帳票処理方法
US20220253529A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP6554804B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220131

R150 Certificate of patent or registration of utility model

Ref document number: 7027696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150