JP6509391B1 - 計算機システム - Google Patents
計算機システム Download PDFInfo
- Publication number
- JP6509391B1 JP6509391B1 JP2018016036A JP2018016036A JP6509391B1 JP 6509391 B1 JP6509391 B1 JP 6509391B1 JP 2018016036 A JP2018016036 A JP 2018016036A JP 2018016036 A JP2018016036 A JP 2018016036A JP 6509391 B1 JP6509391 B1 JP 6509391B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- data element
- evaluation value
- evaluation
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Quality & Reliability (AREA)
Abstract
Description
図1は、本実施の形態に係る計算機システム(以下、単に「システム」と略記することがある)のハードウェア構成の一例を示すブロック図である。計算機システムは、例えば、データ(デジタルデータ、及び/又は、アナログデータを含む)を格納可能な任意の記録媒体(例えば、メモリ、ハードディスク等)と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、CPU;Central Processing Unit)とを備える。計算機システムは、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータシステム(複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)として実現され得る。なお、計算機システムは、一つのコンピュータによって実現されてもよい。
上記システムは、データ評価機能を備えることができる。当該データ評価機能は、人手で分類された少数のデータ(教師データ)に基づいて、多数の評価対象データ(ビッグデータ)を、分析・評価する機能である。当該データ評価機能を備えることにより、上記システムは、例えば、評価対象データと所定事案との関連性の高低を示す指標(例えば、評価対象データを序列化可能にする数値(例えば、スコア)、文字(例えば、「高」、「中」、「低」など)、及び/又は、記号(例えば、「◎」、「○」、「△」、「×」など)を導出し、上記評価を実現することができる。データ評価機能は、例えば、サーバ装置2のコントローラによって実現されてよい。
サーバ装置2による評価対象データの評価動作を説明する。図2は、サーバ装置2(詳しくはサーバ装置2が備えたコントローラ)が実行する処理の流れを示したフローチャートである。サーバ装置2は、ストレージシステム5に記録されたデータから一つ又は複数のデータを参照データとして取得する(ステップS300:参照データ取得モジュール)。各ステップを、モジュール又は手段と言い換えることができる。
上記システムは、教師データを構成するデータ要素(教師データ要素)に対して評価値を算出できるだけでなく、教師データを構成せず、評価用データを構成するデータ要素(未知データ要素)であって、特に、教師データ要素に関連するデータ要素(以下「関連データ要素」と称する場合がある)に対しても評価値を算出できる。ここで、上記参照データとしての文書に含まれる「打ち合わせ」という形態素が教師データ要素であった場合、例えば、「会議」「ミーティング」「会合」「話し合い」などの形態素(例えば、同義語、類義語など)が関連データ要素として考えられる。
本実施の形態において、「データ」は、コンピュータによって処理可能となる形式で表現された任意のデータであってよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む(これらの例に限定されない)。
上記システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
上記システムは、例えば、ディスカバリー支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
タベース、5……ストレージシステム、6……管理計算機
Claims (15)
- データを評価するための計算機システムであって、
メモリとプロセッサとを備え、
前記メモリは、
夫々複数のデータ要素から構成される複数のデータと、
前記複数のデータのうちの一部データから抽出されたデータ要素に対する評価値と、
前記プロセッサに前記複数のデータを評価させるためのプログラムと、
を、少なくとも一時的に記憶し、
前記プロセッサは、前記プログラムにしたがって、
前記複数のデータのうちの少なくとも一つのデータを構成する、第1のデータ要素と第2のデータ要素であって、前記第1のデータ要素の近傍に前記第2のデータ要素が出現し、前記第1のデータ要素と前記第2のデータ要素との共起頻度に基づいて、前記第1のデータ要素に属する複数のデータ要素間の類似度を算出し、
前記評価値を前記類似度に応じて補正し、
前記補正された評価値を前記第1のデータ要素に適用する、
計算機システム。 - 前記第1のデータ要素に属する複数のデータ要素は、前記評価値が与えられた評価済みデータ要素と、前記評価値が与えられていない未評価データ要素と、を含み、
前記プロセッサは、
前記類似度として、前記評価済みデータ要素と前記未評価データ要素との間の類似度を算出し、
前記補正された評価値を前記未評価データ要素に適用する、
請求項1記載の計算機システム。 - 前記プロセッサは、
前記共起頻度に基づくベクトル空間モデルを構成し、
当該ベクトル空間モデルにおける、前記第1のデータ要素に属する複数のデータ要素夫々のベクトルを比較し、
当該比較に基づいて、前記類似度を算出する、
請求項1又は2記載の計算機システム。 - 前記複数のデータは、
所定の基準にしたがってラベルが付与された教師データと、
前記ラベルが付与されていない評価対象データと、
を含み、
前記プロセッサは、
前記教師データを構成するデータ要素を前記抽出されたデータ要素とし、当該データ要素に対する前記評価値を、前記ラベルの情報に基づいて算出し、
前記補正された評価値に基づいて、前記教師データに含まれず、前記評価対象データに含まれるデータ要素に対する評価値を算出する、
請求項1記載の計算機システム。 - 前記教師データおよび評価対象データは夫々文書データであり、
前記第1のデータ要素は、前記教師データに含まれる形態素であって、前記評価値が付与された形態素と、前記教師データには含まれず、前記評価対象データに含まれる形態素であって、前記教師データに含まれる形態素の類義語とを含み、
前記プロセッサは、
前記教師データに含まれる形態素の評価値を前記類似度に基づいて補正し、
前記類似度に応じた評価値を前記類義語の評価値として設定する、
請求項4記載の計算機システム。 - 前記プロセッサは、
前記第1のデータ要素と前記第2のデータ要素とが前記複数のデータのうちの所定のデータ中で夫々出現する確率と、
前記第1のデータ要素と前記第2のデータ要素とが前記所定のデータ中で同時に出現する確率と、
に基づいて自己相互情報量を算出し、
前記自己相互量に基づいて、前記共起頻度を変換する、
請求項1乃至5の何れか1項記載の計算機システム。 - 前記プロセッサは、
前記共起頻度を要素とする行列を前記自己相互情報量に基づいて変換して変換行列を作成し、
前記変換行列を特異値分解し、
前記特異値分解によって得られた対角行列において、降順で並んだ特異値の中から、順番に所定数の特異値を選択し、
前記選択された特異値の数に、前記第2のデータ要素の次元数を縮約して、前記第1のデータ要素に係る特徴値を抽出する、
請求項6記載の計算機システム。 - 前記プロセッサは、
前記第1のデータ要素に属する複数のデータ要素夫々のベクトル間のコサイン類似度を、前記複数のデータ要素間の類似度として、算出する、
請求項3記載の計算機システム。 - 前記プロセッサは、
前記第1のデータ要素に係る特徴値に基づいて前記類似度の行列を構成する、
請求項7記載の計算機システム。 - 前記プロセッサは、
前記評価値を前記類似度に応じて補正することを、前記第1のデータ要素に対する評価値のリストに前記類似度の行列を適用することによって実行する、
請求項9記載の計算機システム。 - 前記プロセッサは、
前記評価された類似度に基づいて、前記評価対象データを序列化できるように、当該評価対象データのスコアを算出する、
請求項10記載の計算機システム。 - データを評価するためのデータ分析方法であって、
前記方法を実行する計算機システムは、
夫々複数のデータ要素から構成される複数のデータと、前記複数のデータのうちの一部データから抽出されたデータ要素に対する評価値と、を、少なくとも一時的に記憶するステップと、
前記複数のデータのうちの少なくとも一つのデータを構成する、第1のデータ要素と第2のデータ要素であって、前記第1のデータ要素の近傍に前記第2のデータ要素が出現し、前記第1のデータ要素と前記第2のデータ要素との共起頻度に基づいて、前記第1のデータ要素に属する複数のデータ要素間の類似度を算出するステップと、
前記評価値を前記類似度に応じて補正するステップと、
前記補正された評価値を前記第1のデータ要素に適用するステップと、
を実行するデータ分析方法。 - データの評価を計算機システムに実行させるためのプログラムであって、
夫々複数のデータ要素から構成される複数のデータと、前記複数のデータのうちの一部データから抽出されたデータ要素に対する評価値と、を、少なくとも一時的に記憶する機能と、
前記複数のデータのうちの少なくとも一つのデータを構成する、第1のデータ要素と第2のデータ要素であって、前記第1のデータ要素の近傍に前記第2のデータ要素が出現し、前記第1のデータ要素と前記第2のデータ要素との共起頻度に基づいて、前記第1のデータ要素に属する複数のデータ要素間の類似度を算出する機能と、
前記評価値を前記類似度に応じて補正する機能と、
前記補正された評価値を前記第1のデータ要素に適用する機能と、
を前記計算機システムに実行させるためのプログラム。 - 請求項13記載のプログラムを記録した記録媒体。
- 複数のデータを評価するためのデータ分析を実行するコンピュータであって、
メモリとプロセッサとを備え、
前記複数のデータは、所定の基準に従ってラベルが付与された教師データと、当該ラベルが付与されない評価用データとを含み、
前記メモリは、前記プロセッサにデータ処理を実行させるプログラムと、前記教師データから抽出されたデータ要素に対する評価値とを、少なくとも一時的に記憶し、
前記評価値は、前記教師データを構成する教師データ要素に対しては、前記ラベルの情報を用いて予め算出されており、前記評価用データを構成する評価用データ要素のうち、前記教師データに含まれない未知データ要素に対しては予め算出されておらず、
前記プロセッサは、前記プログラムにしたがって、
前記教師データ要素の近傍に前記未知データ要素が出現する場合、当該教師データ要素と当該未知データ要素とが類似する度合いを示す類似度を推定し、
前記教師データ要素に対する評価値を前記類似度に応じて補正し、
前記類似度に応じて補正した評価値を、前記教師データ要素と概念的に近い類義要素としての未知データ要素に適用することによって、前記評価用データに前記ラベルを付与することなく評価値を算出し、
前記教師データ要素に対する評価値と、前記未知データ要素に対する評価値とに基づいて、前記複数のデータを序列化可能なスコアを算出するコンピュータ。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018016036A JP6509391B1 (ja) | 2018-01-31 | 2018-01-31 | 計算機システム |
US16/257,322 US11042520B2 (en) | 2018-01-31 | 2019-01-25 | Computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018016036A JP6509391B1 (ja) | 2018-01-31 | 2018-01-31 | 計算機システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6509391B1 true JP6509391B1 (ja) | 2019-05-08 |
JP2019133478A JP2019133478A (ja) | 2019-08-08 |
Family
ID=66429960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018016036A Active JP6509391B1 (ja) | 2018-01-31 | 2018-01-31 | 計算機システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11042520B2 (ja) |
JP (1) | JP6509391B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824922B1 (en) * | 2018-12-12 | 2020-11-03 | Amazon Technologies, Inc. | Similarity detection system |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288362A (ja) | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
JP4055638B2 (ja) * | 2003-04-25 | 2008-03-05 | 株式会社日立製作所 | 文書処理装置 |
JP2005181928A (ja) * | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム |
JP2006338342A (ja) * | 2005-06-02 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム |
JP5079471B2 (ja) * | 2007-11-27 | 2012-11-21 | 株式会社日立製作所 | 同義語抽出装置 |
JP5522389B2 (ja) | 2010-07-01 | 2014-06-18 | 独立行政法人情報通信研究機構 | 類似度算出装置、類似度算出方法、及びプログラム |
JP5528376B2 (ja) * | 2011-03-04 | 2014-06-25 | 日本放送協会 | 文書平易化装置およびプログラム |
JP5513439B2 (ja) * | 2011-05-26 | 2014-06-04 | 日本電信電話株式会社 | 単語関連度テーブル作成装置とその方法と音声認識装置とプログラム |
JP5524138B2 (ja) * | 2011-07-04 | 2014-06-18 | 日本電信電話株式会社 | 同義語辞書生成装置、その方法、及びプログラム |
JP5639546B2 (ja) * | 2011-08-05 | 2014-12-10 | 株式会社東芝 | 情報処理装置及び情報処理方法 |
US8682907B1 (en) * | 2012-03-30 | 2014-03-25 | Google Inc. | Evaluation of substitute terms |
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
US9519634B2 (en) * | 2014-05-30 | 2016-12-13 | Educational Testing Service | Systems and methods for determining lexical associations among words in a corpus |
JP6490989B2 (ja) * | 2015-02-27 | 2019-03-27 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
JPWO2016189605A1 (ja) * | 2015-05-22 | 2018-02-15 | 株式会社Ubic | データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体 |
JP2017174009A (ja) * | 2016-03-22 | 2017-09-28 | 日本電気株式会社 | 事態間知識抽出装置、事態間知識抽出方法、及びプログラム |
US10585893B2 (en) * | 2016-03-30 | 2020-03-10 | International Business Machines Corporation | Data processing |
JP6026036B1 (ja) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
-
2018
- 2018-01-31 JP JP2018016036A patent/JP6509391B1/ja active Active
-
2019
- 2019-01-25 US US16/257,322 patent/US11042520B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190236056A1 (en) | 2019-08-01 |
US11042520B2 (en) | 2021-06-22 |
JP2019133478A (ja) | 2019-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
CN110909539A (zh) | 语料库的词语生成方法、系统、计算机设备和存储介质 | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US11195048B2 (en) | Generating descriptions of image relationships | |
Van den Bogaerd et al. | Applying machine learning in accounting research | |
US11689507B2 (en) | Privacy preserving document analysis | |
US20130204835A1 (en) | Method of extracting named entity | |
US20200202253A1 (en) | Computer, configuration method, and program | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
JP7409484B2 (ja) | リスク評価装置、リスク評価方法およびプログラム | |
Pargent et al. | Predictive modeling with psychological panel data | |
JP7116969B2 (ja) | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム | |
JP6509391B1 (ja) | 計算機システム | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
JP5933863B1 (ja) | データ分析システム、制御方法、制御プログラム、および記録媒体 | |
US11232325B2 (en) | Data analysis system, method for controlling data analysis system, and recording medium | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 | |
Francis et al. | SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation | |
JP6490989B2 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
US20230281275A1 (en) | Identification method and information processing device | |
WO2023218697A1 (ja) | 倫理性診断装置、及び倫理性診断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190402 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6509391 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |