JP7027696B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP7027696B2 JP7027696B2 JP2017085884A JP2017085884A JP7027696B2 JP 7027696 B2 JP7027696 B2 JP 7027696B2 JP 2017085884 A JP2017085884 A JP 2017085884A JP 2017085884 A JP2017085884 A JP 2017085884A JP 7027696 B2 JP7027696 B2 JP 7027696B2
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- tag
- tags
- module
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方、単語とタグによる文書出現頻度を用いた技術では、同義タグを推定して出力することはできるが、誤ったタグ付けを検出することはできず、その結果機械学習の制度が低下してしまう。
本発明は、本発明の構成をもたない場合と比較して、誤ったタグ付けを行うことによって機械学習の精度が低下してしまうことを防止することができる情報処理装置及び情報処理プログラムを提供することを目的としている。
請求項1の発明は、文書内で共起するタグを抽出する第1の抽出手段と、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段を有する情報処理装置である。
固有表現抽出技術がある。つまり、文書内から自動的に固有名詞を抽出し、抽出した固有名詞の種類(以下、カテゴリともいう)を推定する技術である。
固有表現抽出技術において、固有名詞を自動的に抽出するためには、正解のデータである学習データが必要である。一般的に、予め文書を用意した上で、作業者(アノテーター、ユーザーともいわれる。以下、ユーザーともいう)がタグ付け作業により、学習データを生成する。
例えば、以下のような文書(データ)を用意する。
----- ----- ----- ----- -----
アメリカンフットボールの全日本統一選手権が18日、横浜ドームで2万人を集めて行われた。
----- ----- ----- ----- -----
このような文に対して、以下のように、作業者によってタグ付けが行われて、学習データを生成する。
----- ----- ----- ----- -----
<Sports>アメリカンフットボール</Sports>の<Event>全日本統一選手権</Event>が<Timex>18日</Timex>、<Facility>横浜ドーム</Facility>で<Countx>2万人</Countx>を集めて行われた。
----- ----- ----- ----- -----
なお、<>又は</>がタグであり、<>又は</>で囲まれた「Sport」、「Event」等がタグの種類を示しており、<>と</>とで囲まれた文字列がそのタグ種類であることを示している。例えば、<Sport>と</Sport>とで囲まれた「アメリカンフットボール」はSport種類の用語であり、<Event>と</Event>とで囲まれた「全日本統一選手権」はEvent種類の用語であることを示している。なお、この例では、Event種類、Facility種類が固有名詞である。
----- ----- ----- ----- -----
(1)<Company>ABC銀</Company>行は、
(2)<City>ABC銀行</City>は、----- ----- ----- ----- -----
(1)の例は、「位置ずれ」が発生している例である。この誤りは、形態素解析によって抽出(発見を含む)し、そして、異常である旨を通知(警告アラート等を含む)することが可能である。
しかし、(2)のように誤ったタグが付与されてしまった場合、前述した特許文献に記載の技術では、抽出することは困難である。
このようなタグ付けの誤りは、機械学習のモデルに大きな悪影響を与え、固有表現の抽出精度が低下してしまう。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
なお、学習データ生成モジュール150(特に、タグ共起関係抽出モジュール115、タグ間共起統計情報抽出モジュール125、又は、通知モジュール135のいずれか1つ以上)は、出現頻度が高いタグは対象としないようにしてもよい。ここで「出現頻度が高いタグ」とは、タグの出現頻度が予め定められた閾値より高い又は以上である場合をいう。出現頻度は、既にタグ付けが行われた文書(タグ付け誤りの修正が行われた文書)内において、単に出現回数であってもよいし、その文書内の全てのタグ数に対する割合であってもよい。
タグ付けモジュール110は、未タグ付けデータ記憶モジュール105、タグ共起関係抽出モジュール115と接続されており、タグ共起関係抽出モジュール115にタグ付結果112である文書を渡す。タグ付けモジュール110は、未タグ付けデータ記憶モジュール105から抽出した文書に対して、ユーザーの操作に応じてタグ付けを行う。例えば、タグ付けモジュール110は、マウス、キーボード、タッチパネルを兼ねる液晶ディスプレイ等に対してのユーザーによる操作を受け付け、文書に対してのタグ付けを行う。
また、タグ付けモジュール110は、未タグ付けデータ記憶モジュール105から抽出した文書にタグを付与するにあたって、既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率(複数(例えば、2つ)のタグが、単位文書内で出現する確率)から、タグ共起関係抽出モジュール115によって抽出されたタグと共起確率が高いタグを提示するようにしてもよい。ユーザーによるタグ付与作業に用いられる機能である。「共起確率が高いタグ」として、例えば、共起確率が予め定められた閾値より高い又は以上となるタグ、又は、共起確率を降順にソートした場合に、予め定められた順位未満又は以下となるタグ(つまり、順位が上位であるタグ)がある。もちろんのことながら、複数のタグを提示する場合は、共起確率の高いものから順に提示してもよい。
なお、タグ共起関係抽出モジュール115が対象とする文書として、ユーザーがタグ付けを行った文書の他に、タグ間共起統計情報抽出モジュール125が用いた「既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率」における「既にタグ付けが行われた文書」(いわゆる学習データとなった文書)としてもよい。
また、タグ共起関係抽出モジュール115は、通知モジュール135によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合、そのタグよりも前のデータ、又は、そのタグ以降のデータを対象として、処理を行うようにしてもよい。ここで「通知モジュール135によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合」として、例えば、内容(話題)の変化があった場合が該当する。そこで、そのタグを境界にして、文書を分割する。つまり、内容(話題)が変わった後については、学習データ生成モジュール150での処理を行う。したがって、文書全体における共起関係ではなく、その後半部分での共起関係が対象となる。また、内容(話題)が変わる前の部分(そのタグよりも前の部分)についても、学習データ生成モジュール150での処理を行うようにしてもよい。つまり、既に処理を行った部分についても、学習データ生成モジュール150での処理を再度行うようにしてもよい。文書全体における共起関係ではなく、その前半部分での共起関係が対象となるので、共起関係が変わることとなり、異常である旨の通知を行うタグが異なるものとなる可能性があるからである。異常とは、タグ付与が間違っている可能性があることである。具体的には、共起するタグが出現する確率が一般的には低いにもかかわらず、その共起するタグ対象としている文書内で発生することである。
ここで、共起確率は、タグの出現頻度に基づき正規化して算出した値としてもよいし、タグの順序に応じた共起関係における確率としてもよい。さらに、後者(タグの順序に応じた共起関係における確率)においては、タグの直前又は直後のタグに限定した確率としてもよい。タグの順序にも関係があると仮定した場合である。具体的には、イベントの後、前には日付が付与されやすいので、イベントを示すタグの直前又は直後に日付を示すタグがある場合等が多くなりやすいからである。又は、後者(タグの順序に応じた共起関係における確率)においては、対象としているタグとの距離に応じて重み付けした確率としてもよい。例えば、3文字前(又は、3文字後)は0.2、2文字前(又は、2文字後)は0.5、1文字前(又は、1文字後)は1.0との重み付けを行えばよい。
また、タグ正当性判断モジュール130は、タグ間共起統計情報抽出モジュール125によって抽出された共起確率の統計的値と予め定められた閾値とを比較することによって、異常である旨の通知を行うか否かを判断するようにしてもよい。
ここでの統計的値として、タグ間共起統計情報抽出モジュール125によって抽出された共起確率の平均値、最頻値、中央値、最小値、重み付け平均値のいずれか1つ又はこれらの組み合わせを用いてもよい。例えば、あるタグ(具体例として、Per等)が重要などわかっていた場合、重み付け平均値を用いることも可能である。
学習データ生成装置200A、学習データ生成装置200B、未タグ付けデータ記憶装置205、学習データ生成装置245、ユーザー端末250A、ユーザー端末250B、ユーザー端末250C、固有表現抽出装置280は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、学習データ生成装置200A、学習データ生成装置200B、未タグ付けデータ記憶装置205、学習データ生成装置245、固有表現抽出装置280による機能は、クラウドサービスとして実現してもよい。学習データ生成装置200Aは、情報処理装置100を有している。学習データ生成装置200Bは、学習データ生成モジュール150を有している。未タグ付けデータ記憶装置205は、未タグ付けデータ記憶モジュール105を有している。学習データ生成装置245は、学習データ記憶モジュール145を有している。
ステップS302では、タグ付けモジュール110が、未タグ付けデータ記憶モジュール105から未タグ付けデータ(文書)を受け付ける。例えば、図4(a)に示すような未タグ付けデータ410を受け付ける。具体的には、未タグ付けデータ410は、「ABC百貨店は本日から、開店時間を一時間繰り上げ、午前九時開店とする。」である。
ステップS304では、タグ付けモジュール110が、ユーザーの操作にしたがって、タグ付け処理を行う。例えば、図4(b)に示すように、未タグ付けデータ410からタグ付けデータ420を生成する。具体的には、タグ付けデータ420は、「<Organization>ABC百貨店</Organization>は<Time>本日</Time>から、開店時間を<Multiplication>一時間</Multiplication>繰り上げ、<Time>午前九時</Time>開店とする。」である。
そして、組み合わせを抽出して、共起タグの組み合わせ440を生成する。具体的には、共起タグの組み合わせ440は、「Org(Organizationの略)-Time」、「Org-Multi(Multiplicationの略)」、「Time-Multi」である。
ステップS316では、タグ付け修正モジュール140が、修正指示を受け付ける。
ステップS318では、タグ付け修正モジュール140が、修正処理を行う。そして、タグ付け修正モジュール140が、修正済みのデータをタグ付け済データ記憶モジュール120に記憶させる。
ステップS320では、タグ間共起統計情報抽出モジュール125が、既在の共起確率を修正する。
ステップS322では、学習データ記憶モジュール145が、学習データとして記憶する。
ステップS324では、全てのタグについて、処理を終了したか否かを判断し、終了した場合は処理を終了し(ステップS399)、それ以外の場合はステップS308へ戻る。
また、共起確率テーブル500、共起確率テーブル700における共起確率は、タグの出現順序を考慮していないが、タグの順序に応じた共起確率としてもよい。つまり、Aタグ、Bタグの順に発生した共起確率と、Bタグ、Aタグの順に発生した共起確率を別々に算出してもよい。さらに、タグの直前又は直後のタグに限定した共起確率としてもよい。
タグ頻度テーブル800は、既にタグが付与された文書(タグ付け済データ記憶モジュール120内の文書)からタグを抽出し、その回数を計数し、出現頻度を算出したものである。出現頻度は、(そのタグの出現回数)/(全タグの出現回数)によって算出される。
出現頻度が予め定められた閾値より大又は以上であるタグについては、ステップS306、ステップS308、又は、ステップS314の処理を行わないようにしてもよい。つまり、出現頻度が高いタグでは、共起確率はどのような文書でも高くなってしまい、情報処理装置100が誤りのタグを検出するためには貢献しないからである。
ステップS904では、タグ付けモジュール110が、ユーザーの操作にしたがって、タグ付け処理を行う。
ステップS906では、タグ共起関係抽出モジュール115が、タグ付けされたデータから共起関係を抽出する。
ステップS908では、タグ間共起統計情報抽出モジュール125が、ステップS906で抽出した共起関係にあるタグの組み合わせについて、既在文書における共起確率を抽出する。
ステップS910では、タグ正当性判断モジュール130が、各タグについて、他タグとの共起確率の平均値を算出する。
ステップS912では、タグ正当性判断モジュール130が、ステップS910で算出した他タグとの共起確率の平均値は、閾値以下であるか否かを判断し、閾値以下の場合はステップS914へ進み、それ以外の場合はステップS932へ進む。
ステップS914では、通知モジュール135が、異常である旨を通知する。
ステップS916では、タグ付け修正モジュール140が、修正指示を受け付ける。
ステップS920では、タグ付け修正モジュール140が、そのタグを境界にして、そのタグより前のデータ(A)と、そのタグ以降のデータ(B)に分割する。例えば、図10に示すように、文書1000内の対象タグ1010が、情報処理装置100によって誤りであると判断されたが、ユーザーによって正しいタグであると認められた場合(つまり、修正が行われなかった場合)、文書1000を、(A)対象タグ1010よりも前にあるデータである前データ1020と、(B)対象タグ1010以降のデータである後データ1030に分割する。本来は1つの文書1000で取り扱われないような内容(つまり、異常である旨が通知されるタグの組み合わせ)が記載されている場合が該当する。
ステップS924では、再度行う場合はステップS926へ進み、それ以外の場合はステップS928へ進む。
ステップS926では、データ(A)に対して、本フローチャートによる処理を再度行う。再度処理を行うことになるが、全体として、タグの組み合わせが減少し、不要なタグの処理が減少する。
ステップS928では、データ(B)に対して、本フローチャートによる処理を行う。データ(B)については、一般的には、タグの組み合わせが減少し、不要なタグの処理が減少する。
ステップS932では、タグ間共起統計情報抽出モジュール125が、既在の共起確率を修正する。
ステップS934では、学習データ記憶モジュール145が、学習データとして記憶する。
ステップS936では、全てのタグについて、処理を終了したか否かを判断し、終了した場合は処理を終了し(ステップS999)、それ以外の場合はステップS908へ戻る。
ステップS1102では、未タグ付けデータ記憶モジュール105から未タグ付けデータを受け付ける。
ステップS1104では、ユーザーの操作にしたがって、タグ付け処理を行う。なお、ステップS1104におけるタグ付け処理は、図3の例に示したステップS304におけるタグ付け処理のように、文書内の全てのタグ付けを処理させるものではなく、ユーザーの操作によって1つのタグ付けが行われることである。つまり、1つのタグ付けが行われる都度、ステップS1106以降の処理を行う。
また、2回目以降のステップS1104の処理(ステップS1110でNoで戻ってきた場合の処理)では、ステップS1108で提示されたタグを選択してタグ付け処理を行うようにしてもよい。
ステップS1108では、次に付すタグの候補として、ステップS1106で抽出したタグを提示する。例えば、図12に示すタグ候補メニュー1200を提示する。タグ候補メニュー1200では、<Time>タグの付与処理が行われた後に、図5の例に示した共起確率テーブル500を用いて、<Time>タグがある場合の共起確率の高い順にタグを選択可能に並べたものである。つまり、<Time>タグがある場合の条件付き確率が0.7である<Per>タグ、<Even>タグ、0.6である<Org>タグ、<Loc>タグ、0.4である<Multi>タグ、0.3である<Prod>タグの順に並べて提示している。ユーザーの操作によって、タグ候補メニュー1200内のタグが選択され、タグ付け処理が行われる。
ステップS1110では、終了か否かを判断し、終了の場合は処理を終了し(ステップS1199)、それ以外の場合はステップS1104へ戻る。
なお、図13に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図13に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図13に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
また、前述の例では、タグ間共起統計情報抽出モジュール125は、共起確率を抽出する例を用いて説明したが、共起確率の代わりに共起回数の期待値を用いてもよい。単位文書内の共起回数を考慮することで、単位文書内で少数共起するものと多数共起するものの区別が可能になるからである。「共起確率」とあるのを「共起回数の期待値」と読み替えればよい。つまり、共起確率テーブル500、共起確率テーブル700に記載される値として共起回数の期待値を用い、新規データのタグ毎の共起回数をカウントし、それらの分布の距離(KL情報量等)、類似度(コサイン類似度)等を用いて異常を検知すればよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…未タグ付けデータ記憶モジュール
110…タグ付けモジュール
112…タグ付結果
115…タグ共起関係抽出モジュール
120…タグ付け済データ記憶モジュール
125…タグ間共起統計情報抽出モジュール
130…タグ正当性判断モジュール
135…通知モジュール
140…タグ付け修正モジュール
145…学習データ記憶モジュール
150…学習データ生成モジュール
200…学習データ生成装置
205…未タグ付けデータ記憶装置
245…学習データ生成装置
250…ユーザー端末
280…固有表現抽出装置
290…通信回線
Claims (9)
- 文書内で共起するタグを抽出する第1の抽出手段と、
既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段
を有する情報処理装置。 - 前記通知手段は、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値の統計的値と予め定められた閾値とを比較することによって、通知を行うか否かを判断する、
請求項1に記載の情報処理装置。 - 前記統計的値として、前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値の平均値、最頻値、中央値、最小値、重み付け平均値のいずれか1つ又はこれらの組み合わせを用い、
前記通知手段は、前記統計的値が前記閾値未満又は以下である場合に、通知を行う、
請求項2に記載の情報処理装置。 - 前記共起確率又は前記共起回数の期待値は、タグの出現頻度に基づき正規化して算出した値である、
請求項1に記載の情報処理装置。 - 前記共起確率又は前記共起回数の期待値は、タグの順序に応じた共起関係における確率又は共起回数の期待値である、
請求項1に記載の情報処理装置。 - 前記共起確率又は前記共起回数の期待値は、タグの直前又は直後のタグに限定した確率若しくは共起回数の期待値、又は、対象としているタグとの距離に応じて重み付けした確率若しくは共起回数の期待値である、
請求項5に記載の情報処理装置。 - 前記第1の抽出手段、前記第2の抽出手段、又は、前記通知手段のいずれか1つ以上は、出現頻度が高いタグは対象としない、
請求項1に記載の情報処理装置。 - 前記通知手段によって通知されたタグについて、ユーザーによって正しいタグであるとの認定を受けた場合、該タグよりも前のデータ、又は、該タグ以降のデータを対象として、前記第1の抽出手段による処理を行う、
請求項1から7のいずれか一項に記載の情報処理装置。 - コンピュータを、
文書内で共起するタグを抽出する第1の抽出手段と、
既にタグ付けが行われた文書を対象として算出されたタグ間の共起確率又は共起回数の期待値から、前記第1の抽出手段によって抽出された共起するタグの共起確率又は共起回数の期待値を抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出された前記共起確率又は前記共起回数の期待値に基づいて、前記第1の抽出手段によって抽出された共起するタグが異常である旨の通知を行う通知手段
として機能させるための情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017085884A JP7027696B2 (ja) | 2017-04-25 | 2017-04-25 | 情報処理装置及び情報処理プログラム |
US15/832,529 US20180307669A1 (en) | 2017-04-25 | 2017-12-05 | Information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017085884A JP7027696B2 (ja) | 2017-04-25 | 2017-04-25 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018185601A JP2018185601A (ja) | 2018-11-22 |
JP7027696B2 true JP7027696B2 (ja) | 2022-03-02 |
Family
ID=63853889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017085884A Active JP7027696B2 (ja) | 2017-04-25 | 2017-04-25 | 情報処理装置及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180307669A1 (ja) |
JP (1) | JP7027696B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708952B (zh) * | 2020-06-18 | 2023-10-20 | 小红书科技有限公司 | 一种标签推荐方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091961A (ja) | 2000-09-14 | 2002-03-29 | Communication Research Laboratory | コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 |
JP2013084216A (ja) | 2011-10-12 | 2013-05-09 | Ntt Docomo Inc | 定型文判別装置及び定型文判別方法 |
US20150186503A1 (en) | 2012-10-12 | 2015-07-02 | Tencent Technology (Shenzhen) Company Limited | Method, system, and computer readable medium for interest tag recommendation |
CN105512110A (zh) | 2015-12-15 | 2016-04-20 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
JP2016099750A (ja) | 2014-11-20 | 2016-05-30 | 日本電信電話株式会社 | 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
JP3489331B2 (ja) * | 1996-04-19 | 2004-01-19 | 株式会社豊田中央研究所 | 情報選択音声出力装置 |
-
2017
- 2017-04-25 JP JP2017085884A patent/JP7027696B2/ja active Active
- 2017-12-05 US US15/832,529 patent/US20180307669A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091961A (ja) | 2000-09-14 | 2002-03-29 | Communication Research Laboratory | コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 |
JP2013084216A (ja) | 2011-10-12 | 2013-05-09 | Ntt Docomo Inc | 定型文判別装置及び定型文判別方法 |
US20150186503A1 (en) | 2012-10-12 | 2015-07-02 | Tencent Technology (Shenzhen) Company Limited | Method, system, and computer readable medium for interest tag recommendation |
JP2016099750A (ja) | 2014-11-20 | 2016-05-30 | 日本電信電話株式会社 | 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム |
CN105512110A (zh) | 2015-12-15 | 2016-04-20 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
Non-Patent Citations (3)
Title |
---|
Dietmar Jannach et al.著,田中克己・角谷和俊監訳,情報推薦システム入門 理論と実践,初版,共立出版株式会社,2012年06月25日,p.286~292 |
玉城悠仁,外2名,検索エンジンとコーパスを利用した英文の名詞語彙誤り検出の一手法,第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) [online],電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2017年02月27日 |
谷本太郁由,太田学,検索エンジンを用いた動詞名詞コロケーションに基づく英文動詞誤りの検出と修正,情報処理学会研究報告 データベースシステム(DBS)[CD-ROM],一般社団法人情報処理学会,2010年12月15日,No.151,p.1~7 |
Also Published As
Publication number | Publication date |
---|---|
JP2018185601A (ja) | 2018-11-22 |
US20180307669A1 (en) | 2018-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631393A (zh) | 信息识别方法及装置 | |
JP6237168B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN107148624A (zh) | 预处理文本的方法以及用于执行该方法的预处理系统 | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
JP5786630B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5891875B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP7027696B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
JP6596848B2 (ja) | アクセス権推定装置及びアクセス権推定プログラム | |
JP7027757B2 (ja) | 情報処理装置及び情報処理プログラム | |
US11165737B2 (en) | Information processing apparatus for conversion between abbreviated name and formal name | |
US9170725B2 (en) | Information processing apparatus, non-transitory computer readable medium, and information processing method that detect associated documents based on distance between documents | |
JP2017215714A (ja) | 情報処理装置及び情報処理プログラム | |
JP2017045106A (ja) | 情報処理装置及び情報処理プログラム | |
JP2013069182A (ja) | 情報処理装置及び情報処理プログラム | |
JP2022003446A (ja) | 情報処理装置 | |
JP5510221B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2021018520A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11574490B2 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program | |
JP6476988B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20210191991A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6736742B1 (ja) | 帳票処理プログラム、帳票処理装置、帳票処理方法 | |
US20220253529A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP6554804B2 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7027696 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |