JP6534767B1 - データベース作成装置及び検索システム - Google Patents

データベース作成装置及び検索システム Download PDF

Info

Publication number
JP6534767B1
JP6534767B1 JP2018159381A JP2018159381A JP6534767B1 JP 6534767 B1 JP6534767 B1 JP 6534767B1 JP 2018159381 A JP2018159381 A JP 2018159381A JP 2018159381 A JP2018159381 A JP 2018159381A JP 6534767 B1 JP6534767 B1 JP 6534767B1
Authority
JP
Japan
Prior art keywords
information
database
data
search
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018159381A
Other languages
English (en)
Other versions
JP2020035069A (ja
Inventor
大輔 坂本
大輔 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2018159381A priority Critical patent/JP6534767B1/ja
Application granted granted Critical
Publication of JP6534767B1 publication Critical patent/JP6534767B1/ja
Priority to US16/532,806 priority patent/US11436278B2/en
Priority to CN201910794646.4A priority patent/CN110866408B/zh
Publication of JP2020035069A publication Critical patent/JP2020035069A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】有用性を向上させながら、データベースを作成することができるデータベース作成装置などを提供する。【解決手段】データ処理サーバ2は、外部サーバ6から日本語データと外国語データを取得し(STEP1)、外国語データを機械翻訳によって日本語に翻訳することにより、機械翻訳データを作成し(STEP5)、機械翻訳データを日本語データの一部として組み合わせることにより、混合データを作成し(STEP7)、混合データを用いて保存データを作成する(STEP11)。【選択図】図2

Description

本発明は、検索用のデータベースを作成するデータベース作成装置などに関する。
従来、データベース作成装置として、特許文献1に記載されたものが知られている。このデータベース作成装置では、日本語のテキスト情報から感性表現を抽出し、作成済みの感性表現データベースを用いて、感性情報と検索対象を紐付けすることにより、検索対象データベースが作成される。
また、データベース作成装置として、特許文献2に記載されたものが知られている。このデータベース作成装置では、日本語のテキスト情報から、感性表現辞書及び感性表現抽出ルールを用いて、感性表現を抽出し、感性ベクトル辞書を用いて、検索対象毎に感性情報を生成することにより、検索対象データベースが作成される。
特開2011−48527号公報 特開2010−272075号公報
上記特許文献1及び特許文献2のデータベース作成装置によれば、日本語のテキスト情報からデータベースを作成するものに過ぎず、データ収集範囲が制約されてしまうことによって、データベースの有用性が低いという問題がある。その結果、データベースを検索したときの検索結果の有用性も低下してしまう。
本発明は、上記課題を解決するためになされたもので、有用性を向上させながら、データベースを作成することができるデータベース作成装置などを提供することを目的とする。
上記目的を達成するために、本発明のデータベース作成装置(データ処理サーバ2)は、所定メディアで公開された公開情報から、所定の第1言語(日本語)をテキストとして含む第1言語テキスト情報と、所定の第1言語以外の1つ以上の第2言語(外国語)をテキストとして含む第2言語テキスト情報とを所定分野に関連するテキスト情報として取得するテキスト情報取得手段(データ処理サーバ2、STEP1)と、第2言語テキスト情報を所定翻訳手法によって第1言語に翻訳することにより、翻訳テキスト情報を作成する翻訳テキスト情報作成手段(データ処理サーバ2、STEP5)と、翻訳テキスト情報を第1言語テキスト情報の一部として第1言語テキスト情報に組み合わせることにより、混合テキスト情報を作成する混合テキスト情報作成手段(データ処理サーバ2、STEP7)と、混合テキスト情報から感性情報を抽出する抽出処理(STEP9)、及び、混合テキスト情報からノイズとなるノイズ情報を除去するノイズ除去処理(STEP10)を実行した後、感性情報をノイズ情報が除去された混合テキスト情報に紐付けすることにより、検索用のデータベースを作成するデータベース作成手段(データ処理サーバ2、STEP11)と、を備えることを特徴とする。
このデータベース作成装置によれば、所定メディアで公開された公開情報から、所定の第1言語をテキストとして含む第1言語テキスト情報と、所定の第1言語以外の1つ以上の第2言語をテキストとして含む第2言語テキスト情報とが、所定分野に関連するテキスト情報として取得される。また、第2言語テキスト情報を所定翻訳手法を用いて第1言語に翻訳することにより、翻訳テキスト情報が作成され、翻訳テキスト情報を第1言語テキスト情報の一部として第1言語テキスト情報に組み合わせることにより、混合テキスト情報が作成される。そして、この混合テキスト情報を用いて検索用のデータベースが作成されるので、特許文献1,2の場合と異なり、所定メディアで公開された公開情報のうち、2つ以上の言語をテキストとして含む情報を用いて、データベースを作成することができる。それにより、例えば、このデータベースを検索したときに、特許文献1,2の場合と比べて、より幅広い情報を検索できることで、データベースの有用性を向上させることができる。さらに、混合テキスト情報から感性情報を抽出する抽出処理、及び、混合テキスト情報からノイズとなるノイズ情報を除去するノイズ除去処理が実行される。そして、感性情報をノイズ情報が除去された混合テキスト情報に紐付けすることにより、データベースが作成される。それにより、例えば、このデータベースを検索したときに、ノイズとなる情報が検索されるのを回避しながら適切な情報を検索することができる。それにより、データベースの有用性をさらに向上させることができる(なお、本明細書における「所定メディア」は、TV、ラジオ及び新聞などのマスメディアや、電子掲示板、ブログ及びSNSなどのネットワークメディア、マルチメディアを含む)。
本発明において、ノイズ除去処理では、所定分野に関連する所定名詞が混合テキスト情報に含まれている場合において、所定名詞に続く品詞が主格、目的格及び所有格のいずれかの格助詞以外であるときに、所定名詞を含む混合テキスト情報がノイズ情報として除去されることが好ましい。
このデータベース作成装置によれば、ノイズ除去処理では、所定分野に関連する所定名詞が混合テキスト情報に含まれている場合において、所定名詞に続く品詞が主格、目的格及び所有格のいずれかの格助詞以外であるときに、所定名詞を含む混合テキスト情報がノイズ情報として除去される。この場合、所定名詞に続く品詞が主格、目的格及び所有格のいずれかの格助詞以外であるときには、この所定名詞が名詞以外の言葉の一部として用いられている可能性が高いことになる。したがって、そのような紛らわしい言葉を含むノイズ情報がデータベースに混入するのを回避できることで、データベースの有用性をさらに向上させることができる。
本発明の検索システム1は、上記のデータベース作成装置(データ処理サーバ2)と、データベースを記憶するデータベース記憶手段(データベースサーバ3)と、データベース記憶手段に記憶されたデータベースを、所定分野に関連する所定キーワードに基づいて検索する検索手段(データ処理サーバ2、検索端末4、STEP30,32)と、検索手段による検索結果における感性情報を、複数の分類の感性情報に分別する分別手段(データ処理サーバ2、STEP33)と、複数の分類の感性情報を、互いに異なる色に色分けして表示する表示手段(検索端末4、STEP35)と、を備えることを特徴とする。
この検索システムによれば、データベース記憶手段に記憶されたデータベースが、所定分野に関連する所定キーワードに基づいて検索され、検索手段による検索結果における感性情報が、複数の分類の感性情報に分別される。そして、複数の分類の感性情報が、互いに異なる色に色分けして表示されるので、検索システムのユーザは、検索結果における複数の分類の感性情報を、一瞥して把握することができ、その利便性を向上させることができる。
本発明の検索システム1は、上記のデータベース作成装置(データ処理サーバ2)と、データベースを記憶するデータベース記憶手段(データベースサーバ3)と、データベース記憶手段に記憶されたデータベースを、所定分野に関連する所定キーワードに基づいて検索する検索手段(データ処理サーバ2、検索端末4、STEP30,32)と、検索手段による検索結果における感性情報を、最上位から最下位の複数段階の分類の感性情報に分別する分別手段(データ処理サーバ2、STEP33,38)と、複数段階の分類の感性情報を、最上位から最下位への順に段階的に表示する表示手段(検索端末4、STEP35,40)と、を備えることを特徴とする。
この検索システムによれば、データベース記憶手段に記憶されたデータベースが、所定分野に関連する所定キーワードに基づいて検索され、検索手段による検索結果における感性情報が、最上位から最下位までの複数段階の分類の感性情報に分別される。そして、複数段階の分類の感性情報が、最上位から最下位への順に段階的に表示される。このように、検索システムのユーザは、検索結果における感性情報を最上位から最下位への順に段階的に参照できることによって、どのような感性情報が検索結果に含まれているのかを詳細に検討することができる。
本発明の検索システム1は、上記のデータベース作成装置(データ処理サーバ2)と、データベースを記憶するデータベース記憶手段(データベースサーバ3)と、データベース記憶手段に記憶されたデータベースを、所定検索期間に基づいて検索する検索手段(データ処理サーバ2、検索端末4、STEP50,52)と、検索手段による検索結果における複数の感性情報を表示するとともに、複数の感性情報のいずれかが選択されたときに、選択された感性情報に対応する関連語及びデータベースの情報を表示する表示手段(検索端末4、STEP55,60)と、を備えることを特徴とする。
この検索システムによれば、データベース記憶手段に記憶されたデータベースが、所定検索期間に基づいて検索され、検索手段による検索結果における複数の感性情報が表示される。そして、複数の感性情報のいずれかが選択されたときに、選択された感性情報に対応する関連語及びデータベースの情報が表示される。それにより、検索システムのユーザは、選択した感性情報に対応する関連語及びデータベースの情報を参照することができ、その利便性を向上させることができる。
本発明の一実施形態に係るデータベース作成装置及び検索システムの構成を模式的に示す図である。 保存データ作成処理を示すフローチャートである。 取得したテキストデータの一例を示す図である。 日本語データの一例を示す図である。 外国語データの一例を示す図である。 翻訳不要のデータの一例を示す図である。 翻訳用データの一例を示す図である。 機械翻訳データの一例を示す図である。 準日本語データの一例を示す図である。 混合データの一例を示す図である。 分析不要のデータの一例を示す図である。 分析用データの一例を示す図である。 感性情報の大分類及び小分類の一例を示す図である。 保存データの一例を示す図である。 検索システムによる第1検索処理時の通信動作を示す図である。 関連語の表示例を示す図である。 感性情報の大分類の表示例を示す図である。 感性情報の小分類の表示例を示す図である。 データベースの原文の表示例を示す図である。 検索システムによる第2検索処理時の通信動作を示す図である。
以下、図面を参照しながら、本発明の一実施形態に係る検索システム及びデータベース作成装置について説明する。本実施形態のデータベース作成装置は、検索システムに含まれているので、以下の説明では、検索システムについて説明するとともに、その中で、データベース作成装置の機能及び構成についても説明する。
図1に示すように、本実施形態の検索システム1は、データ処理サーバ2、データベースサーバ3及び複数の検索端末4(2つのみ図示)を備えている。
データ処理サーバ2は、プロセッサ、メモリ(RAM、ROMなど)及びI/Oインターフェースなどを備えており、メモリ内の演算プログラムに基づいて、後述する保存データ作成処理などを実行する。
このデータ処理サーバ2には、ネットワーク5(例えばインターネット)を介して、多数の外部サーバ6が接続されている(3つのみ図示)。この場合、各種のSNSサーバ、所定メディア(例えば、新聞社)のサーバ及び検索サイトのサーバなどが外部サーバ6に相当する。なお、本実施形態では、外部サーバ6によって構成されるメディアが所定メディアに相当し、外部サーバ6内のデータが所定メディアで公開された公開情報に相当する。
データ処理サーバ2は、後述する保存データ作成処理において、これらの外部サーバ6からテキスト情報を取得し、保存データを作成するとともに、それをデータベースサーバ3に出力する。
なお、本実施形態では、データ処理サーバ2がデータベース作成装置、テキスト情報取得手段、翻訳テキスト情報作成手段、混合テキスト情報作成手段、データベース作成手段、検索手段及び分別手段に相当する。
また、データベースサーバ3は、データ処理サーバ2と同様に、プロセッサ、メモリ及びI/Oインターフェースなどを備えている。このデータベースサーバ3では、データ処理サーバ2から入力された保存データが、データベースの一部としてメモリ内に記憶される。なお、本実施形態では、データベースサーバ3がデータベース記憶手段に相当する。
さらに、検索端末4は、パソコンタイプのものであり、ディスプレイ4a、ストレージ4b及び入力インターフェース4cなどを備えている。このストレージ4bには、検索処理用のアプリケーションソフト(以下「検索ソフト」という)がインストールされており、入力インターフェース4cは、検索端末4を操作するためのキーボード及びマウスなどで構成されている。
この検索端末4では、後述するように、検索ソフトの起動中、ユーザによる入力インターフェース4cの操作に伴って、データベースの検索などがデータ処理サーバ2で実行される。なお、本実施形態では、検索端末4が検索手段及び表示手段に相当する。
次に、図2を参照しながら、前述した保存データ作成処理について説明する。この処理は、以下に述べるように、前述した外部サーバ6からデータ処理サーバ2に入力されるテキストデータを用いて、データベースの一部となる保存データを作成するものであり、データ処理サーバ2において、所定の制御周期で実行される。
なお、この保存データ作成処理で取得されたデータ、作成されたデータ及び算出されたデータはいずれも、データ処理サーバ2のメモリのRAM内に記憶されるものとする。
同図に示すように、まず、データを取得する(図2/STEP1)。具体的には、外部サーバ6からデータ処理サーバ2に入力されたデータに対して、所定のフィルタ処理を施すことにより、車両関連用語を含むテキストデータを取得する。この場合、テキストデータは、例えば図3に示すように取得される。同図において、「X」は、車両名を表しており、「Y社」は、車両製造企業名を表している。
また、車両関連用語は、二輪車及び四輪車などの車両関連分野の用語であり、具体的には、車両名、車両製造企業名、車両製造企業の社長名、車両部品用語、車両競技用語及びレーサ名などが車両関連用語に相当する。なお、本実施形態では、車両関連分野が所定分野に相当する。
次いで、言語分類処理を実行する(図2/STEP2)。具体的には、上記のように取得したテキストデータを、日本語データと外国語データに分類する。例えば、図3に示すテキストデータの場合には、図4に示す日本語データと、図5に示す外国語データとに分類される。
次に、上記のようにテキストデータを分類したときに、外国語データが存在しているか否かを判定する(図2/STEP3)。この判定が否定であるとき(図2/STEP3…NO)、すなわち外国語データが存在しておらず、テキストデータが日本語データのみであるときには、後述する分析用データ選択処理(図2/STEP8)に進む。
一方、この判定が肯定であるとき(図2/STEP3…YES)には、翻訳用データ選択処理を実行する(図2/STEP4)。この処理では、上記のように分類された外国語データから、翻訳する必要のあるデータが翻訳用データとして選択される。例えば、図5に示す外国語データの場合、図6に示すURLのデータは翻訳する必要がないので、翻訳する必要のある翻訳用データとして、図7に示すデータが選択される。
次いで、機械翻訳処理を実行する(図2/STEP5)。この処理では、翻訳用データを機械翻訳することによって、機械翻訳データが得られる。例えば、図7に示す翻訳用データを機械翻訳した場合には、図8に示す機械翻訳データが得られる。
次に、準日本語データを作成する(図2/STEP6)。この場合、上記の翻訳用データ選択処理において選択されなかったデータ、すなわち機械翻訳しなかったデータがあるときには、それを機械翻訳データに組み合わせることにより、準日本語データが作成される。例えば、図8に示す機械翻訳データに、図6に示すURLのデータを組み合わせることにより、図9に示す準日本語データが作成される。一方、機械翻訳しなかったデータがないときには、機械翻訳データがそのまま準日本語データに設定される。
次いで、混合データを作成する(図2/STEP7)。具体的には、日本語データに、準日本語データを組み合わせることにより、混合データが作成される。例えば、図4に示す日本語データに、図9に示す準日本語データを組み合わせることにより、図10に示す混合データが作成される。
このように混合データを作成したとき、又は前述した判定で外国語データが存在しなかったときには、分析用データ選択処理を実行する(図2/STEP8)。
この処理では、混合データ又は日本語データから、分析する必要のある分析用データが選択される。例えば、図10に示す混合データが作成された場合、図11に示すデータは、タイトルや名詞の羅列にすぎず、分析する必要がないので、図12に示すデータが分析用データとして選択される。
次いで、感性抽出処理を実行する(図2/STEP9)。この処理では、文章の構成や単語の連接関係を理解/判断する言語理解アルゴリズムを用い、分析用データの感性情報が分類して抽出される。具体的には、図13に示すように、分析用データの感性情報は、3つの大分類「Positive」、「Neutral」、「Negative」と、各大分類の下位の多数の小分類との2段階に分類して抽出される。
同図において、分類「嬉しい」、……、「買いたい」が、大分類「Positive」の下位の小分類に相当し、分類「驚き」、……、「勧誘」が、大分類「Neutral」の下位の小分類に相当する。また、分類「怒り」、……、「買いたくない」が、大分類「Negative」の下位の小分類に相当する。
次に、ノイズ除去処理を実行する(図2/STEP10)。この処理では、まず、形態素解析が分析用データに対して実施される。そして、車両関連用語の所定名詞が分析用データに含まれている場合、その所定名詞に続く品詞に基づいて、ノイズデータであるか否かを判定する。
具体的には、所定名詞に続く品詞が各助詞であり、その格助詞が主格、目的格及び所有格のいずれかであるときには、ノイズデータではないと判定され、それ以外のときには、ノイズデータであると判定される。そして、ノイズデータであると判定されたときには、そのデータが分析用データから除去される。
例えば、図12に示す分析用データの場合、No.8のデータには、車両名「フィット」が含まれているものの、この名詞「フィット」に続く言葉が、各助詞ではなく、「する」という動詞であることで、このデータがノイズデータであると判定される。それにより、図12の分析用データからNo.8のデータが除去される。
次いで、保存データを作成する(図2/STEP11)。具体的には、上記のノイズ除去処理でノイズを除去した分析用データに、前述した感性抽出処理で抽出した感性情報を紐付けることにより、保存データが作成される。例えば、図12に示す分析用データからNo.8のデータを除去したデータに、感性情報を紐付けすることにより、図14に示す保存データが作成される。
次に、以上のように作成した保存データをデータベースサーバ3に出力する(図2/STEP12)。その後、本処理を終了する。これにより、保存データがデータベースの一部としてデータベースサーバ3内に記憶される。
次に、図15を参照しながら、検索システム1によって実行される第1検索処理について説明する。この第1検索処理は、検索端末4において前述した検索ソフトが起動中のときに、ユーザによる入力インターフェース4cの操作によって、キーワード及び検索期間が入力されたときに実行される。
同図に示すように、まず、検索端末4において、ユーザによる入力インターフェース4cの操作により、キーワード及び検索期間が検索情報として入力される(図15/STEP30)。以下、ユーザにより、キーワードとして、企業名「ホンダ」が入力されたときの例について説明する。
次いで、検索情報信号が検索端末4からデータ処理サーバ2に送信される(図15/STEP31)。この検索情報信号は、キーワード及び検索期間をデータとして含むものである。
データ処理サーバ2では、この検索情報信号を受信すると、感性情報集計処理が実行される(図15/STEP32)。この処理では、検索情報信号に含まれているキーワード及び検索期間に基づいて、データベースサーバ3内のデータベースが検索され、その検索結果における感性情報のヒット数が集計される。具体的には、前述した感性情報における3つの大分類の各々のヒット数や、多数の小分類の各々のヒット数が集計される。
次いで、この感性情報の集計結果に基づき、関連語&感性大分類表示データが作成される(図15/STEP33)。この関連語&感性大分類表示データは、キーワードに関連する言葉と、感性情報における3つの大分類の割合を表示するためのデータである。
次いで、関連語&感性大分類表示信号がデータ処理サーバ2から検索端末4に送信される(図15/STEP34)。この関連語&感性大分類表示信号は、上述した関連語&感性大分類表示データを含むものである。
この関連語&感性大分類表示信号が検索端末4で受信されると、検索端末4のディスプレイ4aには、関連語&感性大分類表示データに対応して、関連語及び感性大分類が表示される(図15/STEP35)。この場合、関連語は、図16に示すように、キーワード「ホンダ」を中心として、これに関連しかつヒット数の多い言葉がワードクラウド形式で表示される。
また、感性情報の大分類は、例えば図17に示すように、円環状のグラフ(ドーナツグラフ)形式で表示される。同図に示すように、このグラフでは、感性情報における3つの大分類「Positive」、「Neutral」、「Negative」が3つの領域に区分して表示される。これらの領域は、その面積が各大分類のヒット数の割合に応じて設定されるとともに、互いに異なる色で表示される。
そして、ユーザがディスプレイ4aに表示された感性情報の大分類を視認した後、ユーザによって3つの大分類のうちのいずれかが選択されると(図15/STEP36)、感性大分類選択信号が検索端末4からデータ処理サーバ2に送信される(図15/STEP37)。
この感性大分類選択信号は、ユーザによって選択された大分類を表すものである。また、ユーザによる大分類の選択は、入力インターフェース4bの操作により、ディスプレイ4a上の大分類の3つに区分された領域(図17の円環状の領域)のいずれかが押下されることで実施される。以下、ユーザにより、感性情報の大分類として、「Positive」が選択されたときの例について説明する。
データ処理サーバ2では、この感性大分類選択信号を受信すると、感性小分類表示データが作成される(図15/STEP38)。この感性小分類表示データは、感性大分類選択信号に基づき、ユーザによって選択された感性情報の大分類の下位における小分類を表示するためのデータとして作成される。
次いで、感性小分類表示信号がデータ処理サーバ2から検索端末4に送信される(図15/STEP39)。この感性小分類表示信号は、上述した感性小分類表示データを含むものである。
この感性小分類表示信号が検索端末4で受信されると、検索端末4のディスプレイ4aには、感性小分類表示データに対応して、感性情報の小分類が表示される(図15/STEP40)。この場合、感性情報の小分類は、例えば図18に示すように、棒グラフ形式で表示されるとともに、その棒グラフの長さがヒット数に応じて設定される。
そして、ユーザがディスプレイ4aに表示された感性情報の小分類を視認した後、ユーザによって多数の小分類のうちのいずれかを選択すると(図15/STEP41)、感性小分類選択信号が検索端末4からデータ処理サーバ2に送信される(図15/STEP42)。
この感性小分類選択信号は、ユーザによって選択された小分類を表すものである。また、ユーザによる小分類の選択は、入力インターフェース4bの操作により、ディスプレイ4a上に表示された小分類の多数の表示領域(点描で示す棒グラフの領域)のいずれかが押下されることで実施される。以下、ユーザにより、感性情報の小分類として、「褒め・賞賛」が選択されたときの例について説明する。
データ処理サーバ2では、この感性小分類選択信号を受信すると、関連語&原文表示データが作成される(図15/STEP43)。この関連語&原文表示データは、ユーザにより入力されたキーワードに関連する言葉を表示するとともに、ユーザにより選択された感性情報の小分類に対応するデータベースの原文を表示するためのデータとして作成される。
次いで、関連語&原文表示信号がデータ処理サーバ2から検索端末4に送信される(図15/STEP44)。この関連語&原文表示信号は、上述した関連語&原文表示データを含むものである。
この関連語&原文表示信号が検索端末4で受信されると、検索端末4のディスプレイ4aには、関連語&原文表示データに対応して、データベースの原文及び関連語が表示される(図15/STEP45)。
この場合、関連語は、前述した図16と同様に、最多ヒット数のワードを中心として、ワードクラウド形式で表示される。それにより、ユーザは、外部サーバ6で構成されるメディアにおいて、キーワード「ホンダ」及び選択した感性情報の小分類に関連して、どのような関連語が検索期間内に多数、公開されていたのかを判断することができる。
また、データベースの原文は、例えば、図19に示すように、日付、メディア名及び感性情報の小分類に対応する文章が表形式で並んだ状態で表示される。それにより、ユーザは、上記のメディアにおいて、キーワード「ホンダ」に関連して、どのような感性情報を含むテキストデータが検索期間内に多数、公開されていたのかを判断することができる。第1検索処理は、以上のように実行される。
次に、図20を参照しながら、検索システム1によって実行される第2検索処理について説明する。この第2検索処理は、検索端末4において前述した検索ソフトが起動中のときに、ユーザによる入力インターフェース4cの操作によって、検索期間のみが入力されたときに実行される。
同図に示すように、まず、検索端末4において、ユーザによる入力インターフェース4cの操作により、検索期間のみが検索情報として入力される(図20/STEP50)。
それにより、検索情報信号が検索端末4からデータ処理サーバ2に送信される(図20/STEP51)。この検索情報信号は、検索期間をデータとして含むものである。
データ処理サーバ2では、この検索情報信号を受信すると、感性情報集計処理が実行される(図20/STEP52)。この処理では、検索情報信号に含まれている検索期間に基づいて、データベースサーバ3内のデータベースが検索され、その検索結果における感性情報が集計される。具体的には、前述した感性情報における多数の小分類の各々のヒット数が集計される。
そして、この感性情報の集計結果に基づき、感性小分類表示データが作成される(図20/STEP53)。この感性小分類表示データは、前述したように、感性情報の小分類を表示するためのデータとして作成される。
次いで、感性小分類表示信号がデータ処理サーバ2から検索端末4に送信される(図20/STEP54)。この感性小分類表示信号は、上述した感性小分類表示データを含むものである。
この感性小分類表示信号が検索端末4で受信されると、検索端末4のディスプレイ4aには、感性小分類表示データに対応して、感性情報の小分類が表示される(図20/STEP55)。この場合、感性情報の小分類は、例えば、前述した図18と同様に、棒グラフ形式で表示される。
そして、ユーザがディスプレイ4aに表示された感性情報の小分類を視認した後、ユーザの入力インターフェース4bの操作によって、多数の小分類のうちのいずれかが選択されると(図20/STEP56)、感性小分類選択信号が検索端末4からデータ処理サーバ2に送信される(図20/STEP57)。
データ処理サーバ2では、この感性小分類選択信号を受信すると、関連語&原文表示データが作成される(図20/STEP58)。この関連語&原文表示データは、ユーザにより選択された感性情報の小分類に対応する関連語と、ユーザにより選択された感性情報の小分類に対応するデータベースの原文とを表示するためのデータとして作成される。
次いで、関連語&言語表示信号がデータ処理サーバ2から検索端末4に送信される(図20/STEP59)。この関連語&言語表示信号は、上述した関連語&原文表示データを含むものである。
この関連語&原文表示信号が検索端末4で受信されると、検索端末4のディスプレイ4aには、関連語&原文表示データに対応して、関連語及びデータベースの原文が表示される(図20/STEP60)。
この場合、関連語は、例えば、前述した図16と同様に、ワードクラウド形式で表示される。また、データベースの原文は、例えば、前述した図19と同様に、日付、メディア名及び感性情報の小分類に対応する文章が表形式で並んだ状態で表示される。第2検索処理は、以上のように実行される。
以上のように、本実施形態の検索システム1のデータ処理サーバ2によれば、図2に示す保存データ作成処理が実行される。この処理では、外部サーバ6内のデータから、日本語をテキストとして含む日本語データと、日本語以外の外国語をテキストとして含む外国語データとが、車両関連分野のテキストデータとして取得される(STEP1)。そして、外国語データを日本語に機械翻訳することにより、機械翻訳データが作成され(STEP5)、機械翻訳データを日本語データの一部として組み合わせることにより、混合データが作成される(STEP7)。次いで、この混合データから分析用データが選択され(STEP8)、分析用データから保存データが作成される(STEP9〜11)。そして、この保存データがデータベースサーバ3においてデータベースの一部として記憶される。
したがって、特許文献1,2の場合と異なり、外部サーバ6で構成されるメディアで公開されたデータのうち、2つ以上の言語をテキストとして含むテキストデータを用いて、データベースを作成することができる。それにより、例えば、このデータベースを検索したときに、特許文献1,2の場合と比べて、より幅広い情報を検索できることで、データベースの有用性を向上させることができる。
また、分析用データから保存データを作成する際、感性情報を抽出する感性抽出処理(STEP9)、及び、分析用データからノイズとなるノイズ情報を除去するノイズ除去処理(STEP10)が実行される。そして、感性情報をノイズ情報が除去された分析用データに紐付けすることにより、保存データが作成される(STEP11)。それにより、例えば、データベースを検索したときに、ノイズとなる情報が検索されるのを回避しながら適切な情報を検索することができる。それにより、データベースの有用性をさらに向上させることができる。
また、ノイズ除去処理では、車両関連用語の所定名詞が分析用データに含まれている場合、その所定名詞に続く品詞が主格、目的格及び所有格のいずれかの格助詞以外であるときには、所定名詞が含まれている混合データがノイズ情報として除去される。この場合、所定名詞に続く品詞が主格、目的格及び所有格のいずれかの格助詞以外であるときには、この所定名詞が名詞以外の言葉の一部として用いられている可能性が高いことになる。したがって、そのような紛らわしい言葉を含むノイズ情報がデータベースに混入するのを回避できることで、データベースの有用性をさらに向上させることができる。
また、図15に示す第1検索処理では、キーワード及び検索期間に基づいてデータベースが検索される。そして、その検索結果における感性情報が、図17に示すような、3つの大分類「Positive」、「Neutral」、「Negative」に区分されたドーナッツグラフ形式で表示される。このグラフでは、3つの大分類の領域の面積が、そのヒット数の割合に応じて設定されるとともに、互いに異なる色に色分けして表示される。それにより、ユーザは、検索結果における感性情報の3つの大分類の割合を一瞥して判断することができる。
さらに、感性情報における3つの大分類のいずれかが選択されたときに、その選択された大分類よりも下位の多数の小分類が、図18に示すような、ヒット数に応じた棒グラフ形式で表示される。それにより、ユーザは、3つの大分類の感性情報のいずれかを選択したときに、その下位の多数の小分類の割合を一瞥して判断することができる。以上のように、ユーザは、3つの大分類の感性情報の割合をまず確認でき、さらに、大分類のいずれかを選択したときに、その下位の多数の小分類の割合を段階的に確認することができ、高い利便性を確保することができる。
一方、図20に示す第2検索処理では、検索期間のみに基づいてデータベースが検索される。そして、その検索結果における多数の小分類の感性情報が、図18に示すような、ヒット数に応じた棒グラフ形式で表示される。それにより、ユーザは、その検索期間内における多数の小分類の感性情報の割合を一瞥して判断することができ、高い利便性を確保することができる。
なお、実施形態は、車両関連分野を所定分野とした例であるが、車両関連分野以外の分野を所定分野としてもよい。例えば、服飾関連分野、食料品関連分野及び玩具関連分野などを所定分野としてもよい。
また、実施形態は、第1言語を日本語とした例であるが、第1言語を英語及びドイツ語などの日本語以外の外国語としてもよい。また、第2言語は、第1言語以外の言語であればよい。例えば、第1言語が英語のときには、第2言語を日本語及びドイツ語などとしてもよい。
さらに、実施形態は、外部サーバ6によって構成されるメディアを所定メディアとした例であるが、本発明の所定メディアはこれに限らず、TV、ラジオ及び新聞などのマスメディアや、電子掲示板、ブログ及びSNSなどのネットワークメディアでもよい。この場合、TV、ラジオ及び新聞などのマスメディアを所定メディアとしたときには、TV、ラジオ及び新聞上に公開された公開情報(動画情報、音声情報及び文字情報)を、パソコンなどの入力インターフェースを介して、テキストデータとしてデータ処理サーバ2内に入力すればよい。
一方、実施形態は、所定翻訳手法として、機械翻訳手法を用いた例であるが、本発明の所定翻訳手法はこれに限らず、第2言語テキスト情報を第1言語に翻訳できる手法であればよい。例えば、人的な翻訳作業によって第2言語テキスト情報を第1言語に翻訳してもよい。
また、実施形態は、感性情報を大分類と小分類との2段階に分別した例であるが、本発明の感性情報はこれに限らず、最上位から最下位までの複数段階の分類に分別したものであればよい。例えば、感性情報を3段階以上の分類に分別してもよい。
1 検索システム
2 データ処理サーバ(データベース作成装置、テキスト情報取得手段、翻訳テキスト 情報作成手段、混合テキスト情報作成手段、データベース作成手段、検索手段、分 別手段)
3 データベースサーバ(データベース記憶手段)
4 検索端末(検索手段、表示手段)

Claims (5)

  1. 所定メディアで公開された公開情報に対して所定のフィルタ処理を施すことにより、所定の第1言語をテキストとして含む第1言語テキスト情報と、当該所定の第1言語以外の1つ以上の第2言語をテキストとして含む第2言語テキスト情報とを所定分野に関連するテキスト情報として取得するテキスト情報取得手段と、
    当該第2言語テキスト情報を所定翻訳手法によって前記第1言語に翻訳することにより、翻訳テキスト情報を作成する翻訳テキスト情報作成手段と、
    当該翻訳テキスト情報を前記第1言語テキスト情報の一部として当該第1言語テキスト情報に組み合わせることにより、混合テキスト情報を作成する混合テキスト情報作成手段と、
    当該混合テキスト情報から感性情報を抽出する抽出処理、及び、前記混合テキスト情報からノイズとなるノイズ情報を除去するノイズ除去処理を実行した後、前記感性情報を前記ノイズ情報が除去された前記混合テキスト情報に紐付けすることにより、検索用のデータベースを作成するデータベース作成手段と、
    を備えることを特徴とするデータベース作成装置。
  2. 請求項1に記載のデータベース作成装置において、
    前記ノイズ除去処理では、前記所定分野に関連する所定名詞が前記混合テキスト情報に含まれている場合において、当該所定名詞に続く品詞が主格、目的格及び所有格のいずれかの格助詞以外であるときに、当該所定名詞を含む前記混合テキスト情報が前記ノイズ情報として除去されることを特徴とするデータベース作成装置。
  3. 請求項1又は2に記載のデータベース作成装置と、
    前記データベースを記憶するデータベース記憶手段と、
    当該データベース記憶手段に記憶された前記データベースを、前記所定分野に関連する所定キーワードに基づいて検索する検索手段と、
    当該検索手段による検索結果における前記感性情報を、複数の分類の感性情報に分別する分別手段と、
    当該複数の分類の感性情報を、互いに異なる色に色分けして表示する表示手段と、
    を備えることを特徴とする検索システム。
  4. 請求項1又は2に記載のデータベース作成装置と、
    前記データベースを記憶するデータベース記憶手段と、
    当該データベース記憶手段に記憶された前記データベースを、前記所定分野に関連する所定キーワードに基づいて検索する検索手段と、
    該検索手段による検索結果における前記感性情報を、最上位から最下位までの複数段階の分類の感性情報に分別する分別手段と、
    当該複数段階の分類の感性情報を、最上位から最下位への順に段階的に表示する表示手段と、
    を備えることを特徴とする検索システム。
  5. 請求項1又は2に記載のデータベース作成装置と、
    前記データベースを記憶するデータベース記憶手段と、
    当該データベース記憶手段に記憶された前記データベースを、所定検索期間に基づいて検索する検索手段と、
    当該検索手段による検索結果における複数の前記感性情報を表示するとともに、当該複数の感性情報のいずれかが選択されたときに、当該選択された感性情報に対応する関連語及び前記データベースの情報を表示する表示手段と、
    を備えることを特徴とする検索システム。
JP2018159381A 2018-08-28 2018-08-28 データベース作成装置及び検索システム Active JP6534767B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018159381A JP6534767B1 (ja) 2018-08-28 2018-08-28 データベース作成装置及び検索システム
US16/532,806 US11436278B2 (en) 2018-08-28 2019-08-06 Database creation apparatus and search system
CN201910794646.4A CN110866408B (zh) 2018-08-28 2019-08-27 数据库制作装置以及检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018159381A JP6534767B1 (ja) 2018-08-28 2018-08-28 データベース作成装置及び検索システム

Publications (2)

Publication Number Publication Date
JP6534767B1 true JP6534767B1 (ja) 2019-06-26
JP2020035069A JP2020035069A (ja) 2020-03-05

Family

ID=67023791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018159381A Active JP6534767B1 (ja) 2018-08-28 2018-08-28 データベース作成装置及び検索システム

Country Status (3)

Country Link
US (1) US11436278B2 (ja)
JP (1) JP6534767B1 (ja)
CN (1) CN110866408B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445388A (zh) * 2019-09-04 2021-03-05 本田技研工业株式会社 数据处理装置和数据处理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11068668B2 (en) * 2018-10-25 2021-07-20 Facebook Technologies, Llc Natural language translation in augmented reality(AR)
CN110991195B (zh) * 2019-12-13 2023-09-29 北京小米智能科技有限公司 机器翻译模型训练方法、装置及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111792A1 (en) * 2001-01-02 2002-08-15 Julius Cherny Document storage, retrieval and search systems and methods
JP2003076710A (ja) * 2001-09-04 2003-03-14 Japan Science & Technology Corp 多言語情報検索システム
JP3739040B2 (ja) * 2001-12-05 2006-01-25 株式会社ジャストシステム 情報処理装置、及び情報処理方法
JP2003288360A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 言語横断情報検索装置及び方法
JP2006221560A (ja) * 2005-02-14 2006-08-24 Nomura Research Institute Ltd データ置換装置、データ置換方法およびデータ置換プログラム
JP4640593B2 (ja) * 2005-07-14 2011-03-02 日本電気株式会社 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP2010272075A (ja) 2009-05-25 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP5311488B2 (ja) 2009-08-26 2013-10-09 日本電信電話株式会社 感性情報抽出装置、感性検索装置、その方法およびプログラム
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
US8838633B2 (en) * 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
JP5441872B2 (ja) * 2010-11-22 2014-03-12 日本電信電話株式会社 文書処理装置、方法、及びプログラム
CN102591856B (zh) * 2011-01-04 2016-09-14 杨东佐 一种翻译系统及翻译方法
US10311113B2 (en) * 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US8914395B2 (en) * 2013-01-03 2014-12-16 Uptodate, Inc. Database query translation system
US9727371B2 (en) * 2013-11-22 2017-08-08 Decooda International, Inc. Emotion processing systems and methods
US10073830B2 (en) * 2014-01-10 2018-09-11 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
CN107220243A (zh) * 2017-05-31 2017-09-29 陈振 一种数据库交互式翻译系统
US20180067935A1 (en) * 2017-08-24 2018-03-08 Prakash Kumar Systems and methods for digital media content search and recommendation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445388A (zh) * 2019-09-04 2021-03-05 本田技研工业株式会社 数据处理装置和数据处理方法
JP2021039595A (ja) * 2019-09-04 2021-03-11 本田技研工業株式会社 データ処理装置及びデータ処理方法

Also Published As

Publication number Publication date
US11436278B2 (en) 2022-09-06
CN110866408B (zh) 2023-10-24
JP2020035069A (ja) 2020-03-05
CN110866408A (zh) 2020-03-06
US20200073889A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
US8325189B2 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
JP6534767B1 (ja) データベース作成装置及び検索システム
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
CN108885617A (zh) 语句解析系统以及程序
JP2002245061A (ja) キーワード抽出
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
US20220292127A1 (en) Information management system
KR101667918B1 (ko) 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
US11960522B2 (en) Information management system for database construction
JP2014049044A (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
WO2020240756A1 (ja) 応答処理プログラム、応答処理方法および情報処理装置
JP2002215642A (ja) フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体
KR102225128B1 (ko) 감성 측정을 이용한 키워드의 분석 장치 및 방법
CN117973402B (zh) 文本转换的预处理方法和装置、存储介质及电子设备
JP2011059843A (ja) 検索式生成装置、検索式生成方法、およびプログラム
KR101913344B1 (ko) 유사군 db를 이용한 임의명칭의 특정 국가용 후보명칭 추천 시스템 및 방법
JP5138622B2 (ja) 情報処理装置及び不満抽出方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181129

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181129

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190529

R150 Certificate of patent or registration of utility model

Ref document number: 6534767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150