JP2021007024A - 文書検索方法、文書検索システム、プログラム - Google Patents

文書検索方法、文書検索システム、プログラム Download PDF

Info

Publication number
JP2021007024A
JP2021007024A JP2020158272A JP2020158272A JP2021007024A JP 2021007024 A JP2021007024 A JP 2021007024A JP 2020158272 A JP2020158272 A JP 2020158272A JP 2020158272 A JP2020158272 A JP 2020158272A JP 2021007024 A JP2021007024 A JP 2021007024A
Authority
JP
Japan
Prior art keywords
data
analysis data
sentence analysis
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020158272A
Other languages
English (en)
Other versions
JP6916941B2 (ja
Inventor
和樹 東
Kazuki Higashi
和樹 東
純平 桃
Junpei Momo
純平 桃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiconductor Energy Laboratory Co Ltd
Original Assignee
Semiconductor Energy Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiconductor Energy Laboratory Co Ltd filed Critical Semiconductor Energy Laboratory Co Ltd
Publication of JP2021007024A publication Critical patent/JP2021007024A/ja
Application granted granted Critical
Publication of JP6916941B2 publication Critical patent/JP6916941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Neurology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現する文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体を提供する。【解決手段】処理部を有する文書検索システムであって、処理部は、文章データに含まれるキーワードを抽出する機能と、複数の第1の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対して重みを付与する機能と、複数の第2の参照用文章解析データのそれぞれに対して重みに基づいて点数を付与する機能と、点数に基づいて複数の第2の参照用文章解析データを順位づけすることでランキングデータを生成する機能と、ランキングデータを出力する機能と、を有する。【選択図】図4

Description

本発明の一態様は、文書検索システム、文書検索方法、プログラム、及び非一時的コンピ
ュータ可読記憶媒体に関する。本発明の一態様は、知的財産に係る文書検索システム及び
文書検索方法に関する。
なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野と
しては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、
入力装置(例えば、タッチセンサなど)、入出力装置(例えば、タッチパネルなど)、そ
れらの駆動方法、またはそれらの製造方法を一例として挙げることができる。
出願前の発明に関し先行技術調査を行うことで、関連する知的財産権が存在するか否かを
調査することができる。先行技術調査を行うことで得られた国内外の特許文献及び論文な
どは、発明の新規性及び進歩性の確認、並びに、特許を出願するか否かの判断に、利用す
ることができる。また、特許文献の無効資料調査を行うことで、自身の所有する特許権が
無効化する恐れが無いか、或いは、他者の所有する特許権を無効化できるか、調査するこ
とができる。
例えば、特許文献を検索するシステムに、使用者がキーワードを入力することで、そのキ
ーワードを含む特許文献を出力することができる。
このようなシステムを用いて高い精度で先行技術調査を行うためには、適切なキーワード
で検索すること、さらに、出力された多くの特許文献から必要な特許文献を抽出すること
など、使用者に高い技量が求められる。
また、様々な用途において、人工知能の活用が検討されている。特に、人工ニューラルネ
ットワークなどを利用することで、従来のノイマン型コンピュータよりも高性能なコンピ
ュータが実現できると期待されており、近年、電子回路上で人工ニューラルネットワーク
を構築する種々の研究が進められている。
例えば、特許文献1には、チャネル形成領域に酸化物半導体を有するトランジスタを用い
た記憶装置によって、人工ニューラルネットワークを用いた計算に必要な重みデータを保
持する発明が開示されている。
米国特許公開第2016/0343452号公報
そこで、本発明の一態様は、高い精度で文書を検索できる文書検索システムを提供するこ
とを課題の一つとする。または、本発明の一態様は、高い精度で文書を検索できる文書検
索方法を提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法
で、精度の高い文書検索、特に知的財産に係る文書の検索を実現することを課題の一つと
する。
なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は
、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求
項の記載から、これら以外の課題を抽出することが可能である。
本発明の一態様は、処理部を有する文書検索システムである。処理部は、文章データに含
まれるキーワードを抽出する機能と、複数の第1の参照用文章解析データに含まれる単語
の中から、キーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対
して、重みを付与する機能と、複数の第2の参照用文章解析データのそれぞれに対して、
重みに基づいて点数を付与する機能と、点数に基づいて複数の第2の参照用文章解析デー
タを順位づけすることで、ランキングデータを生成する機能と、ランキングデータを出力
する機能と、を有する。
本発明の一態様は、文章データに含まれるキーワードを抽出し、複数の第1の参照用文章
解析データに含まれる単語の中から、キーワードの関連語を抽出し、キーワード及び関連
語のそれぞれに対して、重みを付与し、複数の第2の参照用文章解析データのそれぞれに
対して、重みに基づいて点数を付与し、点数に基づいて複数の第2の参照用文章解析デー
タを順位づけすることで、ランキングデータを生成し、ランキングデータを出力する、文
書検索方法である。
本発明の一態様は、文章データに含まれるキーワードを抽出する第1のステップと、複数
の第1の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する第
2のステップと、キーワード及び関連語のそれぞれに対して重みを付与する第3のステッ
プと、複数の第2の参照用文章解析データのそれぞれに対して、第2の参照用文章解析デ
ータに含まれる単語と一致したキーワードまたは関連語の重みに基づいて点数を付与する
第4のステップと、点数に基づいて複数の第2の参照用文章解析データを順位づけするこ
とでランキングデータを生成する第5のステップと、をプロセッサに実行させるプログラ
ムである。また、本発明の一態様は、上記プログラムが記憶された非一時的コンピュータ
可読記憶媒体である。
キーワードの重みは、キーワードの、複数の第1の参照用文章解析データまたは複数の第
2の参照用文章解析データにおける逆文書頻度に基づいた値であることが好ましい。関連
語の重みは、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度また
は距離に基づいた値と、キーワードの重みと、の積であることが好ましい。
キーワードまたは関連語と一致する単語を有する第2の参照用文章解析データに対して、
点数を付与することが好ましい。
複数の第1の参照用文章解析データは、複数の第2の参照用文章解析データと同一であっ
てもよい。
関連語は、複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習する
ことで得られる分散表現ベクトルを用いて抽出することが好ましい。
関連語は、複数の第1の参照用文章解析データに含まれる単語の中から、単語の分散表現
ベクトルとキーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて
抽出することが好ましい。単語の分散表現ベクトルは、ニューラルネットワークを用いて
生成されたベクトルであることが好ましい。
文章データに含まれるキーワードを抽出する機能として、文章データの形態素解析を行う
ことで解析データを生成する機能と、解析データからキーワードを抽出する機能と、を有
することが好ましい。キーワードは、解析データに含まれる単語の中から、複数の第1の
参照用文章解析データまたは複数の第2の参照用文章解析データにおける逆文書頻度の高
さに基づいて抽出することが好ましい。
重みは、ユーザが変更できると好ましい。
第1の参照用文章解析データは、第1の参照用文章データの形態素解析を行うことで生成
されたデータであり、第2の参照用文章解析データは、第2の参照用文章データの形態素
解析を行うことで生成されたデータであることが好ましい。
本発明の一態様の文書検索システムは、電子機器と、サーバと、を有することが好ましい
。電子機器は、第1の通信部を有する。サーバは、上記処理部と、第2の通信部と、を有
する。第1の通信部は、有線通信及び無線通信のうち一方または双方により、サーバに文
章データを供給する機能を有する。処理部は、ランキングデータを第2の通信部に供給す
る機能を有する。第2の通信部は、有線通信及び無線通信のうち一方または双方により、
電子機器にランキングデータを供給する機能を有する。
処理部は、チャネル形成領域に金属酸化物を有するトランジスタを有していてもよく、チ
ャネル形成領域にシリコンを有するトランジスタを有していてもよい。
本発明の一態様により、高い精度で文書を検索できる文書検索システムを提供できる。ま
たは、本発明の一態様により、高い精度で文書を検索できる文書検索方法を提供できる。
または、本発明の一態様により、簡単な入力方法で、精度の高い文書検索、特に知的財産
に係る文書の検索を実現できる。
なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は
、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から
、これら以外の効果を抽出することが可能である。
文書検索システムの一例を示すブロック図。 検索用データの生成方法の一例を示すフロー図。 (A)〜(C)検索用データの生成方法の一例を示す図。 文書検索方法の一例を示すフロー図。 文書検索方法の一例を示すフロー図。 (A)〜(C)文書検索方法の一例を示す図。 (A)、(B)文書検索方法の一例を示す図。 文書検索方法の一例を示すフロー図。 文書検索方法の一例を示すフロー図。 (A)、(B)文書検索方法の一例を示す図。 文書検索システムの一例を示すブロック図。 (A)、(B)ニューラルネットワークの構成例を示す図。 半導体装置の構成例を示す図。 メモリセルの構成例を示す図。 オフセット回路の構成例を示す図。 タイミングチャート。
実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定さ
れず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し
得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の
記載内容に限定して解釈されるものではない。
なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には
同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様
の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際
の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ず
しも、図面に開示された位置、大きさ、範囲などに限定されない。
なお、「膜」という言葉と、「層」という言葉とは、場合によっては、または、状況に応
じて、互いに入れ替えることが可能である。例えば、「導電層」という用語を、「導電膜
」という用語に変更することが可能である。または、例えば、「絶縁膜」という用語を、
「絶縁層」という用語に変更することが可能である。
(実施の形態1)
本実施の形態では、本発明の一態様の文書検索システム及び文書検索方法について図1〜
図11を用いて説明する。
本発明の一態様は、処理部を有する文書検索システムである。当該処理部は、文章データ
に含まれるキーワードを抽出する機能と、複数の第1の参照用文章解析データに含まれる
単語の中からキーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに
対して重みを付与する機能と、複数の第2の参照用文章解析データのそれぞれに対して重
みに基づいて点数を付与する機能と、点数に基づいて複数の第2の参照用文章解析データ
を順位づけすることでランキングデータを生成する機能と、ランキングデータを出力する
機能と、を有する。
本発明の一態様の文書検索システムでは、第1の参照用文章解析データを用いてキーワー
ドの関連語を抽出し、第2の参照用文章解析データを検索対象として、文章データに関連
または類似するデータを検索することができる。
第1の参照用文章解析データと第2の参照用文章解析データは同一であってもよい。この
とき、本発明の一態様の文書検索システムでは、検索対象である参照用文章解析データを
用いてキーワードの関連語を抽出することができる。また、第1の参照用文章解析データ
は、第2の参照用文章解析データの一部または全部を含んでいてもよい。
つまり、本発明の一態様の文書検索システムが有する処理部は、文章データに含まれるキ
ーワードを抽出する機能と、複数の参照用文章解析データに含まれる単語の中からキーワ
ードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対して重みを付与す
る機能と、複数の参照用文章解析データのそれぞれに対して重みに基づいて点数を付与す
る機能と、点数に基づいて複数の参照用文章解析データを順位づけすることでランキング
データを生成する機能と、ランキングデータを出力する機能と、を有していてもよい。
文書検索システムにおいて、検索に用いるキーワードを使用者が選定する場合、使用者は
、キーワード単体だけでなく、当該キーワードの同義語、類義語、及び表記の揺らぎなど
も考慮して、検索に用いるキーワードを選定することが求められる。そのため、キーワー
ド選定は使用者にとって負担となり、また、技量による差が生じやすい。また、使用者に
とって、文書検索システムにより出力された多くの文書から必要な文書を探し出すことも
負担となる。
ここで、本発明の一態様の文書検索システムは、文章データに含まれるキーワードと、当
該キーワードの関連語と、を抽出する機能を有する。そのため、本発明の一態様の文書検
索システムの使用者は、検索に用いるキーワードを自ら選定しなくてもよい。使用者は、
キーワードよりも分量の多い文章データ(テキストデータ)をそのまま文書検索システム
に入力することができる。また、使用者自身がキーワード及び関連語を選定したい場合も
、一から選定する必要はなく、文書検索システムが抽出したキーワード及び関連語を参照
して、キーワード及び関連語の追加、修正、削除などを行えばよい。したがって、文書検
索における使用者の負担を軽減し、また、使用者の技量による検索結果の差を生じにくく
できる。
特に、本発明の一態様の文書検索システムは、複数の参照用文章解析データに含まれる単
語の中からキーワードの関連語を抽出する機能を有する。既存の概念辞書に含まれる単語
の中からキーワードの関連語を抽出する場合、検索対象であるデータに含まれる独特な表
記を関連語として抽出することが困難なことがある。一方、本発明の一態様では、キーワ
ードの関連語を抽出するために用意されたデータ(第1の参照用文章解析データ)、また
は、検索対象であるデータ(第2の参照用文章解析データ)に含まれる単語の中からキー
ワードの関連語を抽出する。これにより、当該独特な表記も関連語として抽出することが
容易となり、検索漏れを低減でき、好ましい。
さらに、本発明の一態様の文書検索システムは、抽出したキーワード及び関連語のそれぞ
れに重みを付与する機能を有する。キーワード及び関連語のそれぞれが重みを有すること
で、キーワードまたは関連語がヒットした参照用文章解析データに、重みに基づいた点数
を付与することができる。そして、本発明の一態様の文書検索システムは、当該点数に基
づいて検索対象である参照用文章解析データを順位づけすることでランキングデータを生
成し、出力する機能を有する。関連性または類似性の高さで順位づけされて検索結果が出
力されるため、使用者は、検索結果から必要な文書を探しやすく作業効率が高まり、また
見落としが生じにくくなる。このように、本発明の一態様の文書検索システムは、簡便か
つ高精度に文書を検索することができる。
キーワードの重みは、キーワードの、複数の第1または第2の参照用文章解析データにお
ける逆文書頻度(Inverse Document Frequency、以下IDF
と記す)に基づいた値であることが好ましい。IDFは、ある単語の文書への現れにくさ
を表す。多くの文書に出現する単語のIDFは小さく、一部の文書にのみ出現する単語の
IDFは高くなる。したがって、IDFが高い単語は、第1または第2の参照用文章解析
データにおいて特徴的な単語であるといえる。
文章データからのキーワードの抽出自体も、文章データに含まれる単語の、複数の第1の
または第2の参照用文章解析データにおけるIDFに基づいて行うことができる。例えば
、IDFがある数値以上の単語をキーワードとして抽出してもよく、IDFが高い順に任
意の個数の単語をキーワードとして抽出してもよい。
キーワードは、第1の参照用文章解析データ及び第2の参照用文章解析データのどちらの
IDFに基づいて抽出してもよい。検索対象である第2の参照用文章解析データにおける
IDFに基づいて、文章データからキーワードを抽出するほうが、検索対象の文書におけ
る特徴的な単語を抽出しやすいため、好ましい。ただし、検索対象となる文書が少ない場
合など、第1の参照用文章解析データにおけるIDFに基づいて、文章データからキーワ
ードを抽出するほうが、文章データにおけるキーワードを抽出しやすいこともある。
または、使用者が入力した文章データを形態素解析することで得られた単語の品詞情報な
どに基づき、キーワードを抽出してもよい。例えば、日本語の文章を形態素解析する場合
、名詞を抽出することが好ましい。また、英語の文章を形態素解析する場合、形容詞、名
詞、及び動詞を抽出することが好ましい。
関連語としては、同義語、類義語、対義語、上位語、下位語などが挙げられる。関連語は
、複数の参照用文章解析データに含まれる単語の中から、当該単語の分散表現ベクトルと
キーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出するこ
とが好ましい。使用者が入力した文章データに含まれるキーワードについて、参照用文章
解析データに含まれる同義語、類義語などを関連語として抽出することができる。これに
より、検索精度を高めることができる。
関連語の重みは、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度
または距離に基づいた値と、キーワードの重みと、の積であることが好ましい。関連語の
重みが、関連語とキーワードの関連度と、キーワード自体の重みと、の双方に基づいて設
定されることで、ランキングの精度をより高めることができる。
文書検索システムは、少なくとも一部の処理に人工知能(AI:Artificial
Intelligence)を用いることが好ましい。
文書検索システムは、特に、人工ニューラルネットワーク(ANN:Artificia
l Neural Network、以下、単にニューラルネットワークとも記す)を用
いることが好ましい。ニューラルネットワークは、回路(ハードウェア)またはプログラ
ム(ソフトウェア)により実現される。
例えば、単語の分散表現ベクトルを生成する際に、機械学習を用いることが好ましく、ニ
ューラルネットワークを用いることがさらに好ましい。具体的には、関連語は、複数の参
照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベ
クトルを用いて抽出することが好ましい。これにより、関連語の抽出及び関連語の重みの
精度を高めることができる。
本明細書等において、ニューラルネットワークとは、生物の神経回路網を模し、学習によ
ってニューロンどうしの結合強度を決定し、問題解決能力を持たせるモデル全般を指す。
ニューラルネットワークは、入力層、中間層(隠れ層)、及び出力層を有する。
本明細書等において、ニューラルネットワークについて述べる際に、既にある情報からニ
ューロンとニューロンの結合強度(重み係数ともいう)を決定することを「学習」と呼ぶ
場合がある。
本明細書等において、学習によって得られた結合強度を用いてニューラルネットワークを
構成し、そこから新たな結論を導くことを「推論」と呼ぶ場合がある。
<1.文書検索システムの構成例1>
本実施の形態では、文書検索システムの一例として、知的財産の検索に用いることができ
る文書検索システムについて説明する。なお、本発明の一態様の文書検索システムは、知
的財産の検索用途に限られず、知的財産以外の検索に使用することもできる。
図1に、文書検索システム100のブロック図を示す。なお、本明細書に添付した図面で
は、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示してい
るが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複
数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあ
り得、例えば、処理部103で行われる2つの処理は、互いに異なるサーバによって実行
されることがある。
文書検索システム100は、少なくとも、処理部103を有する。図1に示す文書検索シ
ステム100は、さらに、入力部101、伝送路102、記憶部105、データベース1
07、及び出力部109を有する。
[入力部101]
入力部101には、文書検索システム100の外部からデータが供給される。入力部10
1に供給されたデータは、伝送路102を介して、処理部103、記憶部105、または
データベース107に供給される。
[伝送路102]
伝送路102は、データを伝達する機能を有する。入力部101、処理部103、記憶部
105、データベース107、及び出力部109の間のデータの送受信は、伝送路102
を介して行うことができる。
[処理部103]
処理部103は、入力部101、記憶部105、データベース107などから供給された
データを用いて、演算、推論などを行う機能を有する。処理部103は、演算結果、推論
結果などを、記憶部105、データベース107、出力部109などに供給することがで
きる。
処理部103には、チャネル形成領域に金属酸化物を有するトランジスタを用いることが
好ましい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素
子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用
いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理
部103が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、
必要なときだけ処理部103を動作させ、他の場合には直前の処理の情報を当該記憶素子
に待避させることにより処理部103をオフにすることができる。すなわち、ノーマリー
オフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることがで
きる。
なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いた
トランジスタをOxide Semiconductorトランジスタ、あるいはOSト
ランジスタと呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが
好ましい。
本明細書等において、金属酸化物(metal oxide)とは、広い意味での金属の
酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体(透明酸化物導電体を含む)
、酸化物半導体(Oxide Semiconductorまたは単にOSともいう)な
どに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属
酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用
、及びスイッチング作用の少なくとも1つを有する場合、当該金属酸化物を、金属酸化物
半導体(metal oxide semiconductor)、略してOSと呼ぶこ
とができる。
チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャ
ネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジス
タのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸
化物は、元素Mを含む酸化物半導体であると好ましい。元素Mは、好ましくは、アルミニ
ウム(Al)、ガリウム(Ga)またはスズ(Sn)などとする。そのほかの元素Mに適
用可能な元素としては、ホウ素(B)、シリコン(Si)、チタン(Ti)、鉄(Fe)
、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr
)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハ
フニウム(Hf)、タンタル(Ta)、タングステン(W)などがある。ただし、元素M
として、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素
との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよ
りも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含
む金属酸化物であると好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある
チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。
半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず
、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっ
ても構わない。
また、処理部103には、チャネル形成領域にシリコンを含むトランジスタを用いてもよ
い。
また、処理部103には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャ
ネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いることが好ましい。
処理部103は、例えば、演算回路または中央演算装置(CPU:Central Pr
ocessing Unit)等を有する。
処理部103は、DSP(Digital Signal Processor)、GP
U(Graphics Processing Unit)等のマイクロプロセッサを有
していてもよい。マイクロプロセッサは、FPGA(Field Programmab
le Gate Array)、FPAA(Field Programmable A
nalog Array)等のPLD(Programmable Logic Dev
ice)によって実現された構成であってもよい。処理部103は、プロセッサにより種
々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制
御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有する
メモリ領域及び記憶部105のうち少なくとも一方に格納される。
処理部103はメインメモリを有していてもよい。メインメモリは、RAM(Rando
m Access Memory)等の揮発性メモリ、及びROM(Read Only
Memory)等の不揮発性メモリのうち少なくとも一方を有する。
RAMとしては、例えばDRAM(Dynamic Random Access Me
mory)、SRAM(Static Random Access Memory)等
が用いられ、処理部103の作業空間として仮想的にメモリ空間が割り当てられ利用され
る。記憶部105に格納されたオペレーティングシステム、アプリケーションプログラム
、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のた
めにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプ
ログラムモジュールは、それぞれ、処理部103に直接アクセスされ、操作される。
ROMには、書き換えを必要としない、BIOS(Basic Input/Outpu
t System)及びファームウェア等を格納することができる。ROMとしては、マ
スクROM、OTPROM(One Time Programmable Read
Only Memory)、EPROM(Erasable Programmable
Read Only Memory)等が挙げられる。EPROMとしては、紫外線照
射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet
Erasable Programmable Read Only Memory)、
EEPROM(Electrically Erasable Programmabl
e Read Only Memory)、フラッシュメモリ等が挙げられる。
[記憶部105]
記憶部105は、処理部103が実行するプログラムを記憶する機能を有する。また、記
憶部105は、処理部103が生成した演算結果及び推論結果、並びに、入力部101に
入力されたデータなどを記憶する機能を有していてもよい。
記憶部105は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶
部105は、例えば、DRAM、SRAMなどの揮発性メモリを有していてもよい。記憶
部105は、例えば、ReRAM(Resistive Random Access
Memory、抵抗変化型メモリともいう)、PRAM(Phase change R
andom Access Memory)、FeRAM(Ferroelectric
Random Access Memory)、MRAM(Magnetoresis
tive Random Access Memory、磁気抵抗型メモリともいう)、
またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部105
は、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッド
ステートドライブ(Solid State Drive:SSD)等の記録メディアド
ライブを有していてもよい。
[データベース107]
データベース107は、少なくとも、検索対象となる参照用文章解析データ、IDFデー
タ、及びベクトルデータを記憶する機能を有する。また、データベース107は、処理部
103が生成した演算結果及び推論結果、並びに、入力部101に入力されたデータなど
を記憶する機能を有していてもよい。なお、記憶部105及びデータベース107は互い
に分離されていなくてもよい。例えば、文書検索システムは、記憶部105及びデータベ
ース107の双方の機能を有する記憶ユニットを有していてもよい。
[出力部109]
出力部109は、文書検索システム100の外部にデータを供給する機能を有する。例え
ば、処理部103における演算結果または推論結果などを外部に供給することができる。
<2.文書検索方法>
まず、図2及び図3を用いて、文書検索システム100を用いて検索を行うために事前に
行う処理について説明する。図2にフローチャートを示し、図3に、図2に示す各ステッ
プの模式図を示す。なお、図3に示す各データの図示は一例であり、これに限定されない
また、以下では、キーワードの関連語を抽出するために用いる参照用文章データと、検索
対象となる参照用文章用データが同一である(参照用文章データTDrefと記す)場合
を例に挙げて説明する。前述の通り、これら2つの参照用文章用データが異なっていても
よい。例えば、第1の参照用文章データを用いてベクトルデータVD(後述する)を生成
し、第2の参照用文章データを検索対象としてもよい。このとき、後述するIDFデータ
IDは、第1の参照用文章データを用いて生成してもよく、第2の参照用文章データを用
いて生成してもよい。
[ステップS1]
まず、入力部101に、参照用文章データTDrefを複数入力する(図2及び図3(A
))。
本実施の形態の文書検索方法では、事前に準備された複数の文書を検索の対象として、入
力された文書に関連または類似する文書を検索することができる。参照用文章データTD
refは、文書検索システム100において検索の対象となる文書の文章データである。
参照用文章データTDrefとして用いるデータは、文書検索システム100の用途に応
じて適宜選択できる。
参照用文章データTDrefは、文書検索システム100の外部から入力部101に入力
される。そして、参照用文章データTDrefは、入力部101から、伝送路102を介
して、処理部103に供給される。または、参照用文章データTDrefは、入力部10
1から、伝送路102を介して、記憶部105またはデータベース107に保存され、記
憶部105またはデータベース107から、伝送路102を介して、処理部103に供給
されてもよい。
図3(A)では、n個(nは、2以上の整数)の参照用文章データTDrefを図示し、
それぞれ、データTDref(x)(xは、1以上n以下の整数)と記す。
本実施の形態では、検索の対象が知的財産に係る文書である例を示す。参照用文章データ
TDrefは、知的財産に係る文書の文章データである。
なお、上述の通り、ステップS1で入力する参照用文章データが検索の対象となるデータ
と異なる場合もある。ステップS1で入力する参照用文章データは、知的財産に係る文書
の文章データであることが好ましいが、これに限られない。また、ステップS1で入力す
る参照用文章データの一部が、検索の対象となるデータである場合もある。例えば、ステ
ップS1で入力する参照用文章データが特許文献及び論文の文章データであり、検索の対
象は、特許文献の文章データのみであってもよい。
ここで、知的財産に係る文書としては、具体的には、特許文献(公開特許公報、特許公報
など)、実用新案公報、意匠公報、及び論文などの刊行物が挙げられる。国内で発行され
た刊行物に限られず、世界各国で発行された刊行物を、知的財産に係る文書として用いる
ことができる。
特許文献に含まれる明細書、特許請求の範囲、及び要約書は、それぞれ、一部または全部
を参照用文章データTDrefとして用いることができる。例えば、特定の発明を実施す
るための形態、実施例、または請求項を、参照用文章データTDrefとして用いてもよ
い。同様に、論文など他の刊行物に含まれる文章についても、一部または全部を参照用文
章データTDrefとして用いることができる。
知的財産に係る文書は、刊行物に限られない。例えば、文書検索システムの使用者または
使用団体が独自に有する文書ファイルも参照用文章データTDrefとして用いることが
できる。
さらに、知的財産に係る文書としては、発明、考案、もしくは意匠、または工業製品を説
明する文章などが挙げられる。
参照用文章データTDrefは、例えば、特定の出願人の特許文献、または特定の技術分
野の特許文献を有することができる。
参照用文章データTDrefは、知的財産自体の説明(例えば、明細書など)だけでなく
、当該知的財産に関係する様々な情報(例えば、書誌情報など)を有することができる。
当該情報としては、例えば、特許の出願人、技術分野、出願番号、公開番号、ステータス
(係属中、登録済、取り下げ済など)などが挙げられる。
参照用文章データTDrefは、知的財産に係る日付情報を有することが好ましい。日付
情報としては、例えば、知的財産が特許文献であれば、出願日、公開日、登録日などが挙
げられ、知的財産が工業製品の技術情報であれば、発売日などが挙げられる。
このように、参照用文章データTDrefが知的財産に関係する様々な情報を有すること
で、文書検索システムを用いて、様々な検索範囲を選択することができる。
例えば、本実施の形態の文書検索システムを用いて、出願前の発明と関連または類似する
特許文献、論文、または工業製品を検索することができる。これにより、出願前の発明に
係る先行技術調査をすることができる。関連する先行技術を把握し再検討することで、発
明を強化し、他社が回避困難な強い特許になる発明とすることができる。
また、例えば、本実施の形態の文書検索システムを用いて、発売前の工業製品と関連また
は類似する特許文献、論文、または工業製品を検索することができる。参照用文章データ
TDrefが自社の特許文献を有する場合、発売前の工業製品に係る技術が社内で十分に
特許出願できているかを確認することができる。または、参照用文章データTDref
他社の知的財産の情報を有する場合、発売前の工業製品が他社の知的財産権を侵害してい
ないかを確認することができる。関連する先行技術を把握し、発売前の工業製品に係る技
術を再検討することで、新たな発明を発掘し、自社の事業に貢献する強い特許になる発明
とすることができる。なお、発売前の工業製品に限らず、発売後の工業製品について、検
索してもよい。
また、例えば、本実施の形態の文書検索システムを用いて、特定の特許と関連または類似
する特許文献、論文、または工業製品を検索することができる。特に、当該特許の出願日
を基準に調べることで、当該特許が無効理由を含まないか、簡便かつ高い精度で調査する
ことができる。
[ステップS2]
次に、複数の参照用文章データTDrefそれぞれの形態素解析を行い、参照用文章解析
データADrefを複数生成する(図2及び図3(A))。
処理部103は、n個の参照用文章データTDrefそれぞれの形態素解析を行い、n個
の参照用文章解析データADref(それぞれ、参照用文章解析データADref(x)
(xは、1以上n以下の整数)と記す)を生成する。例えば、参照用文章データTDre
(n)の形態素解析を行うことで、参照用文章解析データADref(n)を生成する
形態素解析では、自然言語で書かれた文章を、形態素(言語として意味を持つ最小単位)
に分割し、形態素の品詞などを判別することができる。これにより、例えば、参照用文章
データTDrefから名詞のみを抽出することができる。
図3(A)では、入力する参照用文章データTDref(1)は長い文を含み、出力され
た参照用文章解析データADref(1)では、当該文が複数の単語に分けられている。
図3(A)では、生成した参照用文章解析データADrefを処理部103の外部に出力
する例を示す。例えば、処理部103は、データベース107に複数の参照用文章解析デ
ータADrefを供給することができる。なお、処理部103は、複数の参照用文章解析
データADrefを1つのデータにまとめたコーパスを生成し、出力してもよい。
なお、日本語の文章だけでなく、様々な言語(例えば、英語、中国語、韓国語など)の文
章の解析を行うことができる。文章の解析方法は、言語に応じて様々な方法を適用できる
[ステップS3]
ステップS2の後、複数の参照用文章解析データADrefに含まれる単語のIDFを計
算し、IDFデータIDを生成する(図2及び図3(B))。ここで、IDFは、規格化
することが好ましい。
参照用文章解析データADrefは、データベース107から、伝送路102を介して、
処理部103に供給される。
処理部103は、n個の参照用文章解析データADrefに含まれる単語のIDFを計算
し規格化することで、IDFデータIDを生成する。
図3(B)に示すように、IDFデータIDは、単語(Word)と規格化されたIDF
を含む。
ある単語tのIDF(t)は、式(1)のidf(t)を規格化することで求められる。
規格化の方法は特に限定されず、例えば、式(2)により、idf(t)を規格化できる
。式(1)において、Nは全文書数(参照用文章解析データADrefの数、上記nと等
しい)であり、df(t)はある単語tが出現する文書数(参照用文章解析データAD
efの数)である。式(2)において、idfMAXは、参照用文章解析データADre
に含まれる単語のidf(t)の最大値であり、idfMINは、参照用文章解析デー
タADrefに含まれる単語のidf(t)の最小値である。
例えば、Word Aの規格化されたIDFは0.868であり、Word Bの規格化
されたIDFは0.115であり、Word Cの規格化されたIDFは0.642であ
ることから、Word Aは、Word B及びWord Cに比べて、IDFが高く、
参照用文章解析データADrefに現れにくい特徴的な単語であるといえる。なお、図3
(B)では、名前順に単語を並べる例を示すが、これに限られず、IDFの高い順などに
単語を並べてもよい。
図3(B)では、生成したIDFデータIDを処理部103の外部に出力する例を示す。
例えば、処理部103は、伝送路102を介して、データベース107にIDFデータI
Dを供給することができる。
[ステップS4]
ステップS2の後、複数の参照用文章解析データADrefに含まれる単語の分散表現ベ
クトルを生成し、ベクトルデータVDを生成する(図2及び図3(C))。
なお、ステップS3とステップS4はどちらを先に行ってもよく、並行して行ってもよい
処理部103は、n個の参照用文章解析データADrefに含まれる単語の分散表現ベク
トルを生成し、ベクトルデータVDを生成する。
単語の分散表現は、単語埋め込みともいわれ、単語の分散表現ベクトルは、単語を、各特
徴要素(次元)に対して、定量化した連続値で表現したベクトルである。意味の近い単語
どうしは、ベクトルも近くなる。
図3(C)に示すように、処理部103は、ニューラルネットワークNNを用いて、単語
の分散表現ベクトルを生成することが好ましい。
ここで、ニューラルネットワークNNを用いて、単語の分散表現ベクトルを生成する方法
の一例を説明する。ニューラルネットワークNNの学習は教師あり学習で行う。具体的に
は、ある単語を入力層に与え、当該単語の周辺語を出力層に与えて、ニューラルネットワ
ークNNに、ある単語に対するその周辺語の確率を学習させる。中間層(隠れ層)は10
次元以上1000次元以下の比較的低次元のベクトルを有することが好ましい。学習後の
当該ベクトルが、単語の分散表現ベクトルである。
単語の分散表現は、例えば、オープンソース化されているアルゴリズムのWord2ve
cを用いて行うことができる。Word2vecは、同じ文脈で利用される単語は、同じ
意味を持つという仮説に基づき、単語の特徴及び意味構造を含めて単語をベクトル化する
単語のベクトル化において、単語の分散表現ベクトルを生成することで、ベクトル間の演
算で単語間の類似度や距離などを計算することができる。2つのベクトルの類似度が高い
とき、当該2つのベクトルは関係性が高いといえる。また、2つのベクトルの距離が近い
とき、当該2つのベクトルは関係性が高いといえる。
また、one−hot表現が1単語に1次元を割り当てるのに対し、分散表現では単語を
低次元の実数値ベクトルで表すことができるため、語彙数が増えても少ない次元数で表現
することができる。したがって、コーパスに含まれる単語数が多くても計算量が増加しに
くく、膨大なデータを短時間で処理することができる。
図3(C)に示すように、ベクトルデータVDは、単語(Word)とベクトル(Vec
tor)を含む。例えば、Word AのVectorは(0.12,0.90,0.3
2,・・・)であり、Word BのVectorは(0.88,0.10,0.29,
・・・)であり、Word CのVectorは(0.23,0.56,0.47,・・
・)である。
図3(C)では、生成したベクトルデータVDを処理部103の外部に出力する例を示す
。例えば、処理部103は、データベース107にベクトルデータVDを供給することが
できる。
以上のステップを事前に行い、参照用文章解析データADref、IDFデータID、及
びベクトルデータVDを生成しておくことで、文書検索システム100を用いて、文書を
検索することができる。
なお、本実施の形態では、文書検索システム100を用いて、参照用文章解析データAD
ref、IDFデータID、及びベクトルデータVDを生成する例を示したが、文書検索
システム100の外部で、参照用文章解析データADref、IDFデータID、及びベ
クトルデータVDのうち少なくとも1つを生成してもよい。この場合、外部で生成したデ
ータを、文書検索システム100の入力部101に入力し、データベース107に保存す
ることで、文書検索システム100を用いた検索が可能となる。
次に、文書検索システム100を用いた検索方法について説明する。図4、図5、図8、
及び図9にフローチャートを示し、図6、図7(A)、及び図10に、フローチャートに
示す各ステップの模式図を示す。なお、図6、図7(A)、及び図10に示す各データの
図示は一例であり、これに限定されない。
[ステップS11]
まず、入力部101に、文章データTDを入力する(図4、図5、及び図6(A))。
本実施の形態の文書検索方法では、参照用文章データTDrefの中から、文章データT
Dに関連または類似する文章データを検索することができる。
文章データTDは、文書検索システム100の外部から入力部101に入力される。そし
て、文章データTDは、入力部101から、伝送路102を介して、処理部103に供給
される。または、文章データTDは、伝送路102を介して、記憶部105またはデータ
ベース107に保存され、記憶部105またはデータベース107から、伝送路102を
介して、処理部103に供給されてもよい。
本実施の形態では、検索の対象が知的財産に係る文書である例を示す。文章データTDは
、知的財産に係る文書のデータである。知的財産に係る文書の例は上述の通りである。
文章データTDは、例えば、出願前の発明、考案もしくは意匠、発売前の工業製品、技術
情報、または技術的思想を説明する文章などを有することができる。
特に、文章データTDとして、特許請求の範囲、要約書、または発明の概要を説明する文
章などを好適に用いることができる。このような文章量が比較的少ない(明細書全文に比
べて文章量が少ない)文章データTDは、文章データTDに含まれる特徴的なキーワード
を抽出しやすいため好ましい。本実施の形態の文書検索システムは、特徴的なキーワード
の関連語を抽出することができるため、文章データTDの語彙数が少なくても、高精度の
検索を行うことができる。
[ステップS12]
次に、文章データTDの形態素解析を行い、文章解析データADを生成する(図4、図5
、及び図6(A))。
処理部103は、文章データTDの形態素解析を行い、文章解析データADを生成する。
図6(A)では、入力する文章データTDは長い文を含み、出力された文章解析データA
Dでは、当該文が複数の単語に分けられている。
図6(A)では、生成した文章解析データADを処理部103の外部に出力する例を示す
。例えば、処理部103は、記憶部105またはデータベース107に、文章解析データ
ADを供給することができる。
[ステップS13、S33]
次に、文章解析データADをIDFデータIDと照合することで、キーワードデータKD
を生成する(図4、図5、及び図6(B))。
文章解析データADは、記憶部105またはデータベース107から、伝送路102を介
して、処理部103に供給される。IDFデータIDは、データベース107から、伝送
路102を介して、処理部103に供給される。
処理部103は、文章解析データADとIDFデータIDとを照合し、文章解析データA
Dに含まれる単語をIDFの高い順に並べることで、キーワードデータKDを生成する。
キーワードデータKDは、キーワードKWとそのIDFとを含む。ここでは、規格化され
たIDFを用いる例を示す。
キーワードKWは、文章解析データADに含まれる特徴的な単語であるといえる。キーワ
ードKWは、例えば、文章解析データAD及びIDFデータIDの双方に含まれている単
語全てであってもよく、IDFが所定の値以上の単語であってもよく、IDFが高い上位
の所定の個数の単語であってもよい。文章データTDの文章量に応じて、キーワードKW
の抽出基準を設定することが好ましい。例えば、キーワードKWの数は、2個以上100
個以下が好ましく、5個以上30個以下がより好ましい。
ここで、キーワードKWの規格化されたIDFは、後に参照用文章解析データADref
に点数を付与する際に用いる、キーワードKWの重みに相当する。
図6(B)では、Word Dの重みが0.873、Word Aの重みが0.868、
Word Eの重みが0.867である例を示している。
図6(B)では、キーワードデータKDを処理部103の外部に出力する例を示す。例え
ば、処理部103は、伝送路102を介して、記憶部105またはデータベース107に
、キーワードデータKDを供給することができる。
[ステップS14、S34]
次に、文章解析データADまたはキーワードデータKDと、ベクトルデータVDと、を用
いて、関連語データRDを生成する(図4、図5、及び図6(C))。
文章解析データADまたはキーワードデータKDは、記憶部105またはデータベース1
07から、伝送路102を介して、処理部103に供給される。ベクトルデータVDは、
データベース107から、伝送路102を介して、処理部103に供給される。
ステップS14の場合、処理部103は、キーワードKWの分散表現ベクトルと、参照用
文章解析データADrefに含まれる単語の分散表現ベクトルと、の類似度の高さまたは
距離の近さに基づいて、キーワードKWの関連語RWを抽出する。そして、関連語RWを
類似度の高い順または距離の近い順に並べることで、関連語データRDを生成する。具体
的には、1つのキーワードKWに対して、関連語RWを1個以上10個以下抽出すること
が好ましく、2個以上5個以下抽出することがより好ましい。関連語RWは、例えば、類
似度が所定の値以上の単語であってもよく、距離が所定の値以下の単語であってもよく、
類似度が高い上位の所定の個数の単語であってもよく、距離が近い上位の所定の個数の単
語であってもよい。キーワードKWによって、同義語、類義語、対義語、上位語、下位語
などの数は異なるため、キーワードKWによって、関連語RWの数は異なっていてもよい
。参照用文章解析データADrefに含まれる単語の中からキーワードKWの関連語RW
を抽出することで、参照用文章解析データADrefが独特の表記でキーワードKWを表
現している場合であっても、当該表記を関連語RWとして抽出することができる。したが
って、表記の揺らぎによる検索漏れが低減でき、好ましい。
ステップS34の場合、処理部103は、文章解析データADに含まれる単語の分散表現
ベクトルと、参照用文章解析データADrefに含まれる単語の分散表現ベクトルと、の
類似度の高さまたは距離の近さに基づいて、関連語RWを抽出する。それ以外は、ステッ
プS14と同様である。
2つのベクトルの類似度は、コサイン類似度、共分散、不偏共分散、ピアソンの積率相関
係数などを用いて求めることができる。特に、コサイン類似度を用いることが好ましい。
2つのベクトルの距離は、ユークリッド距離、標準(標準化、平均)ユークリッド距離、
マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離などを用
いて求めることができる。
関連語データRDは、関連語RWとその関連度RSとを含む。
関連語RWは、文章解析データADに含まれる単語またはキーワードKWと関連する単語
であるといえる。
関連度RSは、上記類似度の高さもしくは距離の近さを示す値、またはこれらを規格化し
た値である。関連度RSは、後に参照用文章解析データADrefに点数を付与する際に
用いる、関連語の重みの算出に利用する。具体的には、キーワードKWの規格化されたI
DFと関連語RWの関連度RSとの積が、関連語の重みに相当する。
図6(C)では、Word Dの関連語RWとして、関連度RSが高い順にWord X
(関連度RSが0.999)、Word Y(関連度RSが0.901)、Word Z
(関連度RSが0.712)が抽出された例を示す。
図6(C)では、関連語データRDを処理部103の外部に出力する例を示す。例えば、
処理部103は、伝送路102を介して、記憶部105またはデータベース107に、関
連語データRDを供給することができる。
なお、キーワードデータKDを用いて関連語を抽出する場合、図4に示すように、ステッ
プS13の後に、ステップS14を行う。一方、文章解析データADを用いて関連語を抽
出する場合、図5に示すように、ステップS33とステップS34はどちらを先に行って
もよく、並行して行ってもよい。
さらに、関連語RWが、概念辞書に含まれている単語か否かを判断し、当該関連語RWの
重みを決定するステップを有していてもよい。関連語RWが概念辞書に含まれている場合
、当該関連語RWはキーワードKWとの関連度が高いといえる。そのため、概念辞書に含
まれる場合は、含まれない場合に比べて、関連語RWの重みが大きくなるように設定して
もよい。例えば、判断結果に応じて、類似度の高さまたは距離の近さを示す値に、所定の
値を加えた値または減らした値を、関連語RWの重みとして用いてもよい。または、関連
語RWが概念辞書に含まれる場合または含まれない場合の一方において、類似度の高さま
たは距離の近さに関わらず、所定の値を関連語RWの重みとして用いてもよい。例えば、
関連語RWが概念辞書に含まれる場合、関連語RWの重みを、キーワードKWと同じ重み
にしてもよい。
[ステップS15]
次に、参照用文章解析データADrefに含まれる単語と一致したキーワードKWまたは
関連語RWの重みに基づいて、参照用文章解析データADrefに点数を付与する(図4
、図5、及び図7(A))。
参照用文章解析データADrefは、データベース107から、伝送路102を介して、
処理部103に供給される。キーワードデータKD及び関連語データRDは、記憶部10
5またはデータベース107から、伝送路102を介して、処理部103に供給される。
処理部103は、点数づけ(スコアリングともいう)の結果を、伝送路102を介して、
記憶部105またはデータベース107に供給することができる。
まず、図7(B)を用いて、点数づけの具体例を説明する。図7(B)では、3種類のキ
ーワードKWと、キーワードKW1つに対して4種類の関連語RWと、を用いる例を示す
スコアの分母はキーワードKWの重みの総和であり、図7(B)の場合、0.9+0.9
+0.8=2.6である。
スコアの分子は参照用文章解析データADrefに含まれる単語と一致したキーワードK
Wまたは関連語RWの重みの総和であり、図7(B)の場合、Word D、Word
e、及びWord fの重みの和である1.95である。
このことから、スコアは、1.95/2.6=0.75(75%)と求めることができる
図8を用いてステップS15を詳細に説明する。図8に示すように、ステップS15は、
ステップS21からステップS27を有する。なお、キーワードKWの数がp個、各キー
ワードKWの関連語RWの数がq個である場合、xは1以上p以下の整数を表し、yは1
以上q以下の整数を表す。
[ステップS21]
まず、点数づけしていない参照用文章解析データADrefを1件選択する。
[ステップS22]
次に、参照用文章解析データADrefにおいて、キーワードKWがヒットするか判断
する。ヒットする場合、ステップS25に進む。ヒットしない場合、ステップS23に進
む。
[ステップS23]
次に、参照用文章解析データADrefにおいて、キーワードKWの関連語RWxy
ヒットするか判断する。ヒットする場合、ステップS25に進む。ヒットしない場合、ス
テップS24に進む。
[ステップS24]
次に、キーワードKWxの全ての関連語RWで検索したか判断する。検索した場合、ステ
ップS26に進む。検索していない場合、ステップS23に進む。例えば、キーワードK
の関連語RWが2つあり、先のステップS23で関連語RWx1がヒットするか判断
していた場合、ステップS23に戻って関連語RWx2がヒットするか判断する。
[ステップS25]
ステップS25では、ヒットした単語に対応する重みをスコアに加算する。ステップS2
2でヒットした場合、キーワードKWのIDFをスコアに加算する。ステップS23で
ヒットした場合、キーワードKWのIDFと、関連語RWxyの関連度RSと、の積を
スコアに加算する。なお、上述の点数づけの例では、スコアの分子に加算する。
[ステップS26]
次に、全てのキーワードKWで検索したか判断する。検索した場合、ステップS27に進
む。検索していない場合、ステップS22に進む。例えば、キーワードKWが2つあり
、先のステップS22でキーワードKWがヒットするか判断していた場合、ステップS
22に戻ってキーワードKWがヒットするか判断する。
[ステップS27]
次に、全ての参照用文章解析データADrefの点数づけをしたか判断する。全ての点数
づけが終わった場合、ステップS16に進む。終わっていない場合、ステップS21に進
む。
[ステップS16]
そして、参照用文章解析データADrefを順位づけし、ランキングデータLDを生成し
、出力する(図4、5、及び図7(A))。
処理部103は、ランキングデータLDを、伝送路102を介して、記憶部105または
データベース107に供給することができる。また、処理部103は、ランキングデータ
LDを、伝送路102を介して、出力部109に供給することができる。これにより、出
力部109は、文書検索システム100の外部にランキングデータLDを供給することが
できる。
ランキングデータLDは、順位(Lank)、参照用文章データTDrefの情報(名称
や識別番号など)(Doc)、スコア(Score)などを含むことができる。なお、デ
ータベース107などに参照用文章データTDrefが保存されている場合、ランキング
データLDは、参照用文章データTDrefへのファイルパスを含むことが好ましい。こ
れにより、使用者は、ランキングデータLDから、目的の文書に容易にアクセスすること
ができる。
参照用文章解析データADrefのスコアが高いほど、当該参照用文章解析データAD
efに対応する参照用文章データTDrefは、文章データTDと関連または類似してい
るといえる。
図7(A)に示す例では、ランキングデータLDから、n個の参照用文章データTDre
のうち、文章データTDと最も関連または類似しているデータは、参照用文章データT
ref(7)であり、二番目に関連または類似しているデータは、参照用文章データT
ref(4)であり、三番目に関連または類似しているデータは、参照用文章データT
ref(13)であるとわかる。
以上により、文書検索システム100を用いて、検索を行うことができる。
なお、ステップS14で出力したキーワードKW、キーワードKWの重み(IDF)、関
連語RW、及び関連語RWの重み(IDF×RS)を、手作業で編集してから、ステップ
S15に進んでもよい。
図9に編集のステップを含むフローチャートを示し、図10に図9に示すステップの模式
図を示す。なお、図10に示すデータの図示は一例であり、これに限定されない。
[ステップS41]
ステップ14の後、ステップS15で使用予定のキーワードデータKD及び関連語データ
RDの一覧を出力する(図9及び図10(A))。
図10(A)から、キーワードKWとして、Word D、Word A、Word E
が挙げられており、それぞれの重み(IDF)が0.9、0.9、0.8であることがわ
かる。
Word Dの関連語RWとしては、Word X、Word Y、Word Z、及び
Word aが挙げられており、それぞれの重み(IDF×RS)は0.9、0.8、0
.6、0.5であることがわかる。
Word Aの関連語RWとしては、Word b、Word c、Word d、及び
Word eが挙げられており、それぞれの重み(IDF×RS)は0.5、0.5、0
.45、0.3であることがわかる。
Word Eの関連語RWとしては、Word f、Word g、Word h、及び
Word iが挙げられており、それぞれの重み(IDF×RS)は0.75、0.75
、0.75、0.75であることがわかる。
[ステップS42]
次に、キーワードデータKD及び関連語データRDを編集する(図9及び図10(B))
図10(B)では、3か所の編集を行った例を示す。具体的には、Word A及びその
関連語RWの削除と、Word a(重み0.5)からWord x(重み0.8)への
変更と、Word fの重みの変更(0.75から0.8へ)である。
このように、使用者が単語及び重みの少なくとも一方を編集することで、検索精度の向上
を図ってもよい。
その後、ステップS15では、編集済みのキーワードデータKD及び関連語データRDを
用いて参照用文章解析データADrefに点数を付与し、ステップS16でランキングデ
ータLDを生成し、出力する。
[ステップS43]
次に、ランキングデータLDが期待した結果であるか確認する(図9)。期待した結果で
あれば、検索を終了する。期待した結果が得られなかった場合、ステップS41に戻って
、編集済みのキーワードデータKD及び関連語データRDの一覧を出力し、ステップS4
2にて、再度編集してもよい。
なお、単語及び重みの編集は、手作業に限らず、辞書データ、自然言語処理により生成し
た解析データ等を用いて、自動で行われてもよい。編集により、検索精度の向上を図るこ
とができる。
<3.文書検索システムの構成例2>
次に、図11に示す文書検索システム150について説明する。
図11に、文書検索システム150のブロック図を示す。文書検索システム150は、サ
ーバ151と、端末152(パーソナルコンピュータなど)とを有する。
サーバ151は、通信部161a、伝送路162、処理部163a、及びデータベース1
67を有する。図11では図示しないが、さらに、サーバ151は、記憶部、入出力部な
どを有していてもよい。
端末152は、通信部161b、伝送路168、処理部163b、記憶部165、及び入
出力部169を有する。図11では図示しないが、端末152は、さらに、データベース
などを有していてもよい。
文書検索システム150の使用者は、端末152から、文章データTDを、サーバ151
に入力する。文章データTDは、通信部161bから通信部161aに送信される。
通信部161aが受信した文章データTDは、伝送路162を介して、データベース16
7または記憶部(図示しない)に保存される。または、文章データTDは、通信部161
aから、直接、処理部163aに供給されてもよい。
上記<2.文書検索方法>で説明した各種処理は、処理部163aにて行われる。これら
の処理は、高い処理能力が求められるため、サーバ151が有する処理部163aで行う
ことが好ましい。
そして、処理部163aによりランキングデータLDが生成される。ランキングデータL
Dは、伝送路162を介して、データベース167または記憶部(図示しない)に保存さ
れる。または、ランキングデータLDは、処理部163aから、直接、通信部161aに
供給されてもよい。その後、サーバ151から、ランキングデータLDが、端末152に
出力される。ランキングデータLDは、通信部161aから通信部161bに送信される
[入出力部169]
入出力部169には、文書検索システム150の外部からデータが供給される。入出力部
169は、文書検索システム150の外部にデータを供給する機能を有する。なお、文書
検索システム100のように、入力部と出力部が分かれていてもよい。
[伝送路162及び伝送路168]
伝送路162及び伝送路168は、データを伝達する機能を有する。通信部161a、処
理部163a、及びデータベース167の間のデータの送受信は、伝送路162を介して
行うことができる。通信部161b、処理部163b、記憶部165、及び入出力部16
9の間のデータの送受信は、伝送路168を介して行うことができる。
[処理部163a及び処理部163b]
処理部163aは、通信部161a及びデータベース167などから供給されたデータを
用いて、演算、推論などを行う機能を有する。処理部163bは、通信部161b、記憶
部165、及び入出力部169などから供給されたデータを用いて、演算などを行う機能
を有する。処理部163a及び処理部163bは、処理部103の説明を参照できる。特
に、処理部163aは、上記<2.文書検索方法>で説明した各種処理を行うことができ
る。そのため、処理部163aは、処理部163bに比べて処理能力が高いことが好まし
い。
[記憶部165]
記憶部165は、処理部163bが実行するプログラムを記憶する機能を有する。また、
記憶部165は、処理部163bが生成した演算結果、通信部161bに入力されたデー
タ、及び入出力部169に入力されたデータなどを記憶する機能を有する。
[データベース167]
データベース167は、参照用文章解析データADref、IDFデータID、及びベク
トルデータVDを記憶する機能を有する。また、データベース167は、処理部163a
が生成した演算結果、及び通信部161aに入力されたデータなどを記憶する機能を有し
ていてもよい。または、サーバ151は、データベース167とは別に記憶部を有し、当
該記憶部が、処理部163aが生成した演算結果、及び通信部161aに入力されたデー
タなどを記憶する機能を有していてもよい。
[通信部161a及び通信部161b]
通信部161a及び通信部161bを用いて、サーバ151と端末152との間で、デー
タの送受信を行うことができる。通信部161a及び通信部161bとしては、ハブ、ル
ータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例
えば、電波、赤外線など)を用いてもよい。
以上のように、本実施の形態の文書検索システムでは、事前に準備された文書を検索の対
象として、入力された文書に関連または類似する文書を検索することができる。検索に用
いるキーワードを使用者が選択する必要がなく、キーワードよりも分量の多い文章データ
を用いて検索することができるため、検索精度の個人差を低減することができ、簡便かつ
高精度に、文書を検索できる。また、本実施の形態の文書検索システムは、キーワードの
関連語を、事前に準備された文書の中から抽出するため、当該文書に含まれる独特な表記
も関連語として抽出することができ、検索漏れを低減できる。また、本実施の形態の文書
検索システムは、関連性または類似性の高さで順位づけして検索結果を出力することがで
きるため、使用者にとっては、検索結果から必要な文書を探しやすく、かつ、見落としに
くくなる。
本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書にお
いて、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わ
せることが可能である。
(実施の形態2)
本実施の形態では、ニューラルネットワークに用いることが可能な半導体装置の構成例に
ついて説明する。
本実施の形態の半導体装置は、例えば、本発明の一態様の文書検索システムの処理部に用
いることができる。
図12(A)に示すように、ニューラルネットワークNNは入力層IL、出力層OL、中
間層(隠れ層)HLによって構成することができる。入力層IL、出力層OL、中間層H
Lはそれぞれ、1または複数のニューロン(ユニット)を有する。なお、中間層HLは1
層であってもよいし2層以上であってもよい。2層以上の中間層HLを有するニューラル
ネットワークはDNN(ディープニューラルネットワーク)と呼ぶこともでき、ディープ
ニューラルネットワークを用いた学習は深層学習と呼ぶこともできる。
入力層ILの各ニューロンには入力データが入力され、中間層HLの各ニューロンには前
層または後層のニューロンの出力信号が入力され、出力層OLの各ニューロンには前層の
ニューロンの出力信号が入力される。なお、各ニューロンは、前後の層の全てのニューロ
ンと結合されていてもよいし(全結合)、一部のニューロンと結合されていてもよい。
図12(B)に、ニューロンによる演算の例を示す。ここでは、ニューロンNと、ニュー
ロンNに信号を出力する前層の2つのニューロンを示している。ニューロンNには、前層
のニューロンの出力xと、前層のニューロンの出力xが入力される。そして、ニュー
ロンNにおいて、出力xと重みwの乗算結果(x)と出力xと重みwの乗
算結果(x)の総和x+xが計算された後、必要に応じてバイアスb
が加算され、値a=x+x+bが得られる。そして、値aは活性化関数hに
よって変換され、ニューロンNから出力信号y=h(a)が出力される。
このように、ニューロンによる演算には、前層のニューロンの出力と重みの積を足し合わ
せる演算、すなわち積和演算が含まれる(上記のx+x)。この積和演算は
、プログラムを用いてソフトウェア上で行ってもよいし、ハードウェアによって行われて
もよい。積和演算をハードウェアによって行う場合は、積和演算回路を用いることができ
る。この積和演算回路としては、デジタル回路を用いてもよいし、アナログ回路を用いて
もよい。積和演算回路にアナログ回路を用いる場合、積和演算回路の回路規模の縮小、ま
たは、メモリへのアクセス回数の減少による処理速度の向上及び消費電力の低減を図るこ
とができる。
積和演算回路は、チャネル形成領域にシリコン(単結晶シリコンなど)を含むトランジス
タ(「Siトランジスタ」ともいう)によって構成してもよいし、チャネル形成領域に金
属酸化物の一種である酸化物半導体を含むトランジスタ(「OSトランジスタ」ともいう
)によって構成してもよい。特に、OSトランジスタはオフ電流が極めて小さいため、積
和演算回路のメモリを構成するトランジスタとして好適である。なお、Siトランジスタ
とOSトランジスタの両方を用いて積和演算回路を構成してもよい。以下、積和演算回路
の機能を備えた半導体装置の構成例について説明する。
<半導体装置の構成例>
図13に、ニューラルネットワークの演算を行う機能を有する半導体装置MACの構成例
を示す。半導体装置MACは、ニューロン間の結合強度(重み)に対応する第1のデータ
と、入力データに対応する第2のデータの積和演算を行う機能を有する。なお、第1のデ
ータ及び第2のデータはそれぞれ、アナログデータまたは多値のデジタルデータ(離散的
なデータ)とすることができる。また、半導体装置MACは、積和演算によって得られた
データを活性化関数によって変換する機能を有する。
半導体装置MACは、セルアレイCA、電流源回路CS、カレントミラー回路CM、回路
WDD、回路WLD、回路CLD、オフセット回路OFST、及び活性化関数回路ACT
Vを有する。
セルアレイCAは、複数のメモリセルMC及び複数のメモリセルMCrefを有する。図
13には、セルアレイCAがm行n列(m,nは1以上の整数)のメモリセルMC(MC
[1,1]乃至MC[m,n])と、m個のメモリセルMCref(MCref[1]乃
至MCref[m])を有する構成例を示している。メモリセルMCは、第1のデータを
格納する機能を有する。また、メモリセルMCrefは、積和演算に用いられる参照デー
タを格納する機能を有する。なお、参照データはアナログデータまたは多値のデジタルデ
ータとすることができる。
メモリセルMC[i,j](iは1以上m以下の整数、jは1以上n以下の整数)は、配
線WL[i]、配線RW[i]、配線WD[j]、及び配線BL[j]と接続されている
。また、メモリセルMCref[i]は、配線WL[i]、配線RW[i]、配線WDr
ef、配線BLrefと接続されている。ここで、メモリセルMC[i,j]と配線BL
[j]間を流れる電流をIMC[i,j]と表記し、メモリセルMCref[i]と配線
BLref間を流れる電流をIMCref[i]と表記する。
メモリセルMC及びメモリセルMCrefの具体的な構成例を、図14に示す。図14に
は代表例としてメモリセルMC[1,1]、MC[2,1]及びメモリセルMCref[
1]、MCref[2]を示しているが、他のメモリセルMC及びメモリセルMCref
にも同様の構成を用いることができる。メモリセルMC及びメモリセルMCrefはそれ
ぞれ、トランジスタTr11、トランジスタTr12、容量素子C11を有する。ここで
は、トランジスタTr11及びトランジスタTr12がnチャネル型のトランジスタであ
る場合について説明する。
メモリセルMCにおいて、トランジスタTr11のゲートは配線WLと接続され、ソース
またはドレインの一方はトランジスタTr12のゲート、及び容量素子C11の第1の電
極と接続され、ソースまたはドレインの他方は配線WDと接続されている。トランジスタ
Tr12のソースまたはドレインの一方は配線BLと接続され、ソースまたはドレインの
他方は配線VRと接続されている。容量素子C11の第2の電極は、配線RWと接続され
ている。配線VRは、所定の電位を供給する機能を有する配線である。ここでは一例とし
て、配線VRから低電源電位(接地電位など)が供給される場合について説明する。
トランジスタTr11のソースまたはドレインの一方、トランジスタTr12のゲート、
及び容量素子C11の第1の電極と接続されたノードを、ノードNMとする。また、メモ
リセルMC[1,1]、MC[2,1]のノードNMを、それぞれノードNM[1,1]
、NM[2,1]と表記する。
メモリセルMCrefも、メモリセルMCと同様の構成を有する。ただし、メモリセルM
Crefは配線WDの代わりに配線WDrefと接続され、配線BLの代わりに配線BL
refと接続されている。また、メモリセルMCref[1]、MCref[2]におい
て、トランジスタTr11のソースまたはドレインの一方、トランジスタTr12のゲー
ト、及び容量素子C11の第1の電極と接続されたノードを、それぞれノードNMref
[1]、NMref[2]と表記する。
ノードNMとノードNMrefはそれぞれ、メモリセルMCとメモリセルMCrefの保
持ノードとして機能する。ノードNMには第1のデータが保持され、ノードNMrefに
は参照データが保持される。また、配線BL[1]からメモリセルMC[1,1]、MC
[2,1]のトランジスタTr12には、それぞれ電流IMC[1,1]、IMC[2,
1]が流れる。また、配線BLrefからメモリセルMCref[1]、MCref[2
]のトランジスタTr12には、それぞれ電流IMCref[1]、IMCref[2]
が流れる。
トランジスタTr11は、ノードNMまたはノードNMrefの電位を保持する機能を有
するため、トランジスタTr11のオフ電流は小さいことが好ましい。そのため、トラン
ジスタTr11としてオフ電流が極めて小さいOSトランジスタを用いることが好ましい
。これにより、ノードNMまたはノードNMrefの電位の変動を抑えることができ、演
算精度の向上を図ることができる。また、ノードNMまたはノードNMrefの電位をリ
フレッシュする動作の頻度を低く抑えることが可能となり、消費電力を削減することがで
きる。
トランジスタTr12は特に限定されず、例えばSiトランジスタまたはOSトランジス
タなどを用いることができる。トランジスタTr12にOSトランジスタを用いる場合、
トランジスタTr11と同じ製造装置を用いて、トランジスタTr12を作製することが
可能となり、製造コストを抑制することができる。なお、トランジスタTr12はnチャ
ネル型であってもpチャネル型であってもよい。
電流源回路CSは、配線BL[1]乃至BL[n]及び配線BLrefと接続されている
。電流源回路CSは、配線BL[1]乃至BL[n]及び配線BLrefに電流を供給す
る機能を有する。なお、配線BL[1]乃至BL[n]に供給される電流値と配線BLr
efに供給される電流値は異なっていてもよい。ここでは、電流源回路CSから配線BL
[1]乃至BL[n]に供給される電流をI、電流源回路CSから配線BLrefに供
給される電流をICrefと表記する。
カレントミラー回路CMは、配線IL[1]乃至IL[n]及び配線ILrefを有する
。配線IL[1]乃至IL[n]はそれぞれ配線BL[1]乃至BL[n]と接続され、
配線ILrefは、配線BLrefと接続されている。ここでは、配線IL[1]乃至I
L[n]と配線BL[1]乃至BL[n]の接続箇所をノードNP[1]乃至NP[n]
と表記する。また、配線ILrefと配線BLrefの接続箇所をノードNPrefと表
記する。
カレントミラー回路CMは、ノードNPrefの電位に応じた電流ICMを配線ILre
fに流す機能と、この電流ICMを配線IL[1]乃至IL[n]にも流す機能を有する
。図13には、配線BLrefから配線ILrefに電流ICMが排出され、配線BL[
1]乃至BL[n]から配線IL[1]乃至IL[n]に電流ICMが排出される例を示
している。また、カレントミラー回路CMから配線BL[1]乃至BL[n]を介してセ
ルアレイCAに流れる電流を、I[1]乃至I[n]と表記する。また、カレントミ
ラー回路CMから配線BLrefを介してセルアレイCAに流れる電流を、IBref
表記する。
回路WDDは、配線WD[1]乃至WD[n]及び配線WDrefと接続されている。回
路WDDは、メモリセルMCに格納される第1のデータに対応する電位を、配線WD[1
]乃至WD[n]に供給する機能を有する。また、回路WDDは、メモリセルMCref
に格納される参照データに対応する電位を、配線WDrefに供給する機能を有する。回
路WLDは、配線WL[1]乃至WL[m]と接続されている。回路WLDは、データの
書き込みを行うメモリセルMCまたはメモリセルMCrefを選択するための信号を、配
線WL[1]乃至WL[m]に供給する機能を有する。回路CLDは、配線RW[1]乃
至RW[m]と接続されている。回路CLDは、第2のデータに対応する電位を、配線R
W[1]乃至RW[m]に供給する機能を有する。
オフセット回路OFSTは、配線BL[1]乃至BL[n]及び配線OL[1]乃至OL
[n]と接続されている。オフセット回路OFSTは、配線BL[1]乃至BL[n]か
らオフセット回路OFSTに流れる電流量、及び/または、配線BL[1]乃至BL[n
]からオフセット回路OFSTに流れる電流の変化量を検出する機能を有する。また、オ
フセット回路OFSTは、検出結果を配線OL[1]乃至OL[n]に出力する機能を有
する。なお、オフセット回路OFSTは、検出結果に対応する電流を配線OLに出力して
もよいし、検出結果に対応する電流を電圧に変換して配線OLに出力してもよい。セルア
レイCAとオフセット回路OFSTの間を流れる電流を、Iα[1]乃至Iα[n]と表
記する。
オフセット回路OFSTの構成例を図15に示す。図15に示すオフセット回路OFST
は、回路OC[1]乃至OC[n]を有する。また、回路OC[1]乃至OC[n]はそ
れぞれ、トランジスタTr21、トランジスタTr22、トランジスタTr23、容量素
子C21、及び抵抗素子R1を有する。各素子の接続関係は図15に示す通りである。な
お、容量素子C21の第1の電極及び抵抗素子R1の第1の端子と接続されたノードを、
ノードNaとする。また、容量素子C21の第2の電極、トランジスタTr21のソース
またはドレインの一方、及びトランジスタTr22のゲートと接続されたノードを、ノー
ドNbとする。
配線VrefLは電位Vrefを供給する機能を有し、配線VaLは電位Vaを供給する
機能を有し、配線VbLは電位Vbを供給する機能を有する。また、配線VDDLは電位
VDDを供給する機能を有し、配線VSSLは電位VSSを供給する機能を有する。ここ
では、電位VDDが高電源電位であり、電位VSSが低電源電位である場合について説明
する。また、配線RSTは、トランジスタTr21の導通状態を制御するための電位を供
給する機能を有する。トランジスタTr22、トランジスタTr23、配線VDDL、配
線VSSL、及び配線VbLによって、ソースフォロワ回路が構成される。
次に、回路OC[1]乃至OC[n]の動作例を説明する。なお、ここでは代表例として
回路OC[1]の動作例を説明するが、回路OC[2]乃至OC[n]も同様に動作させ
ることができる。まず、配線BL[1]に第1の電流が流れると、ノードNaの電位は、
第1の電流と抵抗素子R1の抵抗値に応じた電位となる。また、このときトランジスタT
r21はオン状態であり、ノードNbに電位Vaが供給される。その後、トランジスタT
r21はオフ状態となる。
次に、配線BL[1]に第2の電流が流れると、ノードNaの電位は、第2の電流と抵抗
素子R1の抵抗値に応じた電位に変化する。このときトランジスタTr21はオフ状態で
あり、ノードNbはフローティング状態となっているため、ノードNaの電位の変化に伴
い、ノードNbの電位は容量結合により変化する。ここで、ノードNaの電位の変化をΔ
Naとし、容量結合係数を1とすると、ノードNbの電位はVa+ΔVNaとなる。そ
して、トランジスタTr22のしきい値電圧をVthとすると、配線OL[1]から電位
Va+ΔVNa−Vthが出力される。ここで、Va=Vthとすることにより、配線O
L[1]から電位ΔVNaを出力することができる。
電位ΔVNaは、第1の電流から第2の電流への変化量、抵抗素子R1の抵抗値、及び電
位Vrefに応じて定まる。ここで、抵抗素子R1の抵抗値と電位Vrefは既知である
ため、電位ΔVNaから配線BLに流れる電流の変化量を求めることができる。
上記のようにオフセット回路OFSTによって検出された電流量、及び/または電流の変
化量に対応する信号は、配線OL[1]乃至OL[n]を介して活性化関数回路ACTV
に入力される。
活性化関数回路ACTVは、配線OL[1]乃至OL[n]、及び、配線NIL[1]乃
至NIL[n]と接続されている。活性化関数回路ACTVは、オフセット回路OFST
から入力された信号を、あらかじめ定義された活性化関数に従って変換するための演算を
行う機能を有する。活性化関数としては、例えば、シグモイド関数、tanh関数、so
ftmax関数、ReLU関数、しきい値関数などを用いることができる。活性化関数回
路ACTVによって変換された信号は、出力データとして配線NIL[1]乃至NIL[
n]に出力される。
<半導体装置の動作例>
上記の半導体装置MACを用いて、第1のデータと第2のデータの積和演算を行うことが
できる。以下、積和演算を行う際の半導体装置MACの動作例を説明する。
図16に半導体装置MACの動作例のタイミングチャートを示す。図16には、図14に
おける配線WL[1]、配線WL[2]、配線WD[1]、配線WDref、ノードNM
[1,1]、ノードNM[2,1]、ノードNMref[1]、ノードNMref[2]
、配線RW[1]、及び配線RW[2]の電位の推移と、電流I[1]−Iα[1]、
及び電流IBrefの値の推移を示している。電流I[1]−Iα[1]は、配線BL
[1]からメモリセルMC[1,1]、MC[2,1]に流れる電流の総和に相当する。
なお、ここでは代表例として図14に示すメモリセルMC[1,1]、MC[2,1]及
びメモリセルMCref[1]、MCref[2]に着目して動作を説明するが、他のメ
モリセルMC及びメモリセルMCrefも同様に動作させることができる。
[第1のデータの格納]
まず、時刻T01−時刻T02の期間において、配線WL[1]の電位がハイレベル(H
igh)となり、配線WD[1]の電位が接地電位(GND)よりもVPR−VW[1,
1]大きい電位となり、配線WDrefの電位が接地電位よりもVPR大きい電位となる
。また、配線RW[1]、及び配線RW[2]の電位が基準電位(REFP)となる。な
お、電位VW[1,1]はメモリセルMC[1,1]に格納される第1のデータに対応す
る電位である。また、電位VPRは参照データに対応する電位である。これにより、メモ
リセルMC[1,1]及びメモリセルMCref[1]が有するトランジスタTr11が
オン状態となり、ノードNM[1,1]の電位がVPR−VW[1,1]、ノードNMr
ef[1]の電位がVPRとなる。
このとき、配線BL[1]からメモリセルMC[1,1]のトランジスタTr12に流れ
る電流IMC[1,1],0は、次の式で表すことができる。ここで、kはトランジスタ
Tr12のチャネル長、チャネル幅、移動度、及びゲート絶縁膜の容量などで決まる定数
である。また、VthはトランジスタTr12のしきい値電圧である。
MC[1,1],0=k(VPR−VW[1,1]−Vth (E1)
また、配線BLrefからメモリセルMCref[1]のトランジスタTr12に流れる
電流IMCref[1],0は、次の式で表すことができる。
MCref[1],0=k(VPR−Vth (E2)
次に、時刻T02−時刻T03の期間において、配線WL[1]の電位がローレベル(L
ow)となる。これにより、メモリセルMC[1,1]及びメモリセルMCref[1]
が有するトランジスタTr11がオフ状態となり、ノードNM[1,1]及びノードNM
ref[1]の電位が保持される。
なお、前述の通り、トランジスタTr11としてOSトランジスタを用いることが好まし
い。これにより、トランジスタTr11のリーク電流を抑えることができ、ノードNM[
1,1]及びノードNMref[1]の電位を正確に保持することができる。
次に、時刻T03−時刻T04の期間において、配線WL[2]の電位がハイレベルとな
り、配線WD[1]の電位が接地電位よりもVPR−VW[2,1]大きい電位となり、
配線WDrefの電位が接地電位よりもVPR大きい電位となる。なお、電位VW[2,
1]はメモリセルMC[2,1]に格納される第1のデータに対応する電位である。これ
により、メモリセルMC[2,1]及びメモリセルMCref[2]が有するトランジス
タTr11がオン状態となり、ノードNM[2,1]の電位がVPR−VW[2,1]
ノードNMref[2]の電位がVPRとなる。
このとき、配線BL[1]からメモリセルMC[2,1]のトランジスタTr12に流れ
る電流IMC[2,1],0は、次の式で表すことができる。
MC[2,1],0=k(VPR−VW[2,1]−Vth (E3)
また、配線BLrefからメモリセルMCref[2]のトランジスタTr12に流れる
電流IMCref[2],0は、次の式で表すことができる。
MCref[2],0=k(VPR−Vth (E4)
次に、時刻T04−時刻T05の期間において、配線WL[2]の電位がローレベルとな
る。これにより、メモリセルMC[2,1]及びメモリセルMCref[2]が有するト
ランジスタTr11がオフ状態となり、ノードNM[2,1]及びノードNMref[2
]の電位が保持される。
以上の動作により、メモリセルMC[1,1]、MC[2,1]に第1のデータが格納さ
れ、メモリセルMCref[1]、MCref[2]に参照データが格納される。
ここで、時刻T04−時刻T05の期間において、配線BL[1]及び配線BLrefに
流れる電流を考える。配線BLrefには、電流源回路CSから電流が供給される。また
、配線BLrefを流れる電流は、カレントミラー回路CM、メモリセルMCref[1
]、MCref[2]へ排出される。電流源回路CSから配線BLrefに供給される電
流をICref、配線BLrefからカレントミラー回路CMへ排出される電流をICM
,0とすると、次の式が成り立つ。
Cref−ICM,0=IMCref[1],0+IMCref[2],0
(E5)
配線BL[1]には、電流源回路CSからの電流が供給される。また、配線BL[1]を
流れる電流は、カレントミラー回路CM、メモリセルMC[1,1]、MC[2,1]へ
排出される。また、配線BL[1]からオフセット回路OFSTに電流が流れる。電流源
回路CSから配線BL[1]に供給される電流をIC,0、配線BL[1]からオフセッ
ト回路OFSTに流れる電流をIα,0とすると、次の式が成り立つ。
−ICM,0=IMC[1,1],0+IMC[2,1],0+Iα,0
(E6)
[第1のデータと第2のデータの積和演算]
次に、時刻T05−時刻T06の期間において、配線RW[1]の電位が基準電位よりも
X[1]大きい電位となる。このとき、メモリセルMC[1,1]、及びメモリセルM
Cref[1]のそれぞれの容量素子C11には電位VX[1]が供給され、容量結合に
よりトランジスタTr12のゲートの電位が上昇する。なお、電位VX[1]はメモリセ
ルMC[1,1]及びメモリセルMCref[1]に供給される第2のデータに対応する
電位である。
トランジスタTr12のゲートの電位の変化量は、配線RWの電位の変化量に、メモリセ
ルの構成によって決まる容量結合係数を乗じて得た値となる。容量結合係数は、容量素子
C11の容量、トランジスタTr12のゲート容量、及び寄生容量などによって算出され
る。以下では便宜上、配線RWの電位の変化量とトランジスタTr12のゲートの電位の
変化量が同じ、すなわち容量結合係数が1であるとして説明する。実際には、容量結合係
数を考慮して電位Vを決定すればよい。
メモリセルMC[1,1]及びメモリセルMCref[1]の容量素子C11に電位V
[1]が供給されると、ノードNM[1,1]及びノードNMref[1]の電位がそれ
ぞれVX[1]上昇する。
ここで、時刻T05−時刻T06の期間において、配線BL[1]からメモリセルMC[
1,1]のトランジスタTr12に流れる電流IMC[1,1],1は、次の式で表すこ
とができる。
MC[1,1],1=k(VPR−VW[1,1]+VX[1]−Vth
(E7)
すなわち、配線RW[1]に電位VX[1]を供給することにより、配線BL[1]から
メモリセルMC[1,1]のトランジスタTr12に流れる電流は、ΔIMC[1,1]
=IMC[1,1],1−IMC[1,1],0増加する。
また、時刻T05−時刻T06の期間において、配線BLrefからメモリセルMCre
f[1]のトランジスタTr12に流れる電流IMCref[1],1は、次の式で表す
ことができる。
MCref[1],1=k(VPR+VX[1]−Vth (E8)
すなわち、配線RW[1]に電位VX[1]を供給することにより、配線BLrefから
メモリセルMCref[1]のトランジスタTr12に流れる電流は、ΔIMCref[
1]=IMCref[1],1−IMCref[1],0増加する。
また、配線BL[1]及び配線BLrefに流れる電流について考える。配線BLref
には、電流源回路CSから電流ICrefが供給される。また、配線BLrefを流れる
電流は、カレントミラー回路CM、メモリセルMCref[1]、MCref[2]へ排
出される。配線BLrefからカレントミラー回路CMへ排出される電流をICM,1
すると、次の式が成り立つ。
Cref−ICM,1=IMCref[1],1+IMCref[2],0
(E9)
配線BL[1]には、電流源回路CSから電流Iが供給される。また、配線BL[1]
を流れる電流は、カレントミラー回路CM、メモリセルMC[1,1]、MC[2,1]
へ排出される。さらに、配線BL[1]からオフセット回路OFSTにも電流が流れる。
配線BL[1]からオフセット回路OFSTに流れる電流をIα,1とすると、次の式が
成り立つ。
−ICM,1=IMC[1,1],1+IMC[2,1],1+Iα,1
(E10)
そして、式(E1)乃至式(E10)から、電流Iα,0と電流Iα,1の差(差分電流
ΔIα)は次の式で表すことができる。
ΔIα=Iα,1−Iα,0=2kVW[1,1]X[1] (E11)
このように、差分電流ΔIαは、電位VW[1,1]とVX[1]の積に応じた値となる
その後、時刻T06−時刻T07の期間において、配線RW[1]の電位は基準電位とな
り、ノードNM[1,1]及びノードNMref[1]の電位は時刻T04−時刻T05
の期間と同様になる。
次に、時刻T07−時刻T08の期間において、配線RW[1]の電位が基準電位よりも
X[1]大きい電位となり、配線RW[2]の電位が基準電位よりもVX[2]大きい
電位となる。これにより、メモリセルMC[1,1]、及びメモリセルMCref[1]
のそれぞれの容量素子C11に電位VX[1]が供給され、容量結合によりノードNM[
1,1]及びノードNMref[1]の電位がそれぞれVX[1]上昇する。また、メモ
リセルMC[2,1]、及びメモリセルMCref[2]のそれぞれの容量素子C11に
電位VX[2]が供給され、容量結合によりノードNM[2,1]及びノードNMref
[2]の電位がそれぞれVX[2]上昇する。
ここで、時刻T07−時刻T08の期間において、配線BL[1]からメモリセルMC[
2,1]のトランジスタTr12に流れる電流IMC[2,1],1は、次の式で表すこ
とができる。
MC[2,1],1=k(VPR−VW[2,1]+VX[2]−Vth
(E12)
すなわち、配線RW[2]に電位VX[2]を供給することにより、配線BL[1]から
メモリセルMC[2,1]のトランジスタTr12に流れる電流は、ΔIMC[2,1]
=IMC[2,1],1−IMC[2,1],0増加する。
また、時刻T07−時刻T08の期間において、配線BLrefからメモリセルMCre
f[2]のトランジスタTr12に流れる電流IMCref[2],1は、次の式で表す
ことができる。
MCref[2],1=k(VPR+VX[2]−Vth (E13)
すなわち、配線RW[2]に電位VX[2]を供給することにより、配線BLrefから
メモリセルMCref[2]のトランジスタTr12に流れる電流は、ΔIMCref[
2]=IMCref[2],1−IMCref[2],0増加する。
また、配線BL[1]及び配線BLrefに流れる電流について考える。配線BLref
には、電流源回路CSから電流ICrefが供給される。また、配線BLrefを流れる
電流は、カレントミラー回路CM、メモリセルMCref[1]、MCref[2]へ排
出される。配線BLrefからカレントミラー回路CMへ排出される電流をICM,2
すると、次の式が成り立つ。
Cref−ICM,2=IMCref[1],1+IMCref[2],1
(E14)
配線BL[1]には、電流源回路CSから電流Iが供給される。また、配線BL[1]
を流れる電流は、カレントミラー回路CM、メモリセルMC[1,1]、MC[2,1]
へ排出される。さらに、配線BL[1]からオフセット回路OFSTにも電流が流れる。
配線BL[1]からオフセット回路OFSTに流れる電流をIα,2とすると、次の式が
成り立つ。
−ICM,2=IMC[1,1],1+IMC[2,1],1+Iα,2
(E15)
そして、式(E1)乃至式(E8)、及び、式(E12)乃至式(E15)から、電流I
α,0と電流Iα,2の差(差分電流ΔIα)は次の式で表すことができる。
ΔIα=Iα,2−Iα,0=2k(VW[1,1]X[1]+VW[2,1]X[
2]) (E16)
このように、差分電流ΔIαは、電位VW[1,1]と電位VX[1]の積と、電位V
[2,1]と電位VX[2]の積と、を足し合わせた結果に応じた値となる。
その後、時刻T08−時刻T09の期間において、配線RW[1]、[2]の電位は基準
電位となり、ノードNM[1,1]、NM[2,1]及びノードNMref[1]、NM
ref[2]の電位は時刻T04−時刻T05の期間と同様になる。
式(E11)及び式(E16)に示されるように、オフセット回路OFSTに入力される
差分電流ΔIαは、第1のデータ(重み)に対応する電位Vと、第2のデータ(入力デ
ータ)に対応する電位Vの積の項を有する式から算出することができる。すなわち、差
分電流ΔIαをオフセット回路OFSTで計測することにより、第1のデータと第2のデ
ータの積和演算の結果を得ることができる。
なお、上記では特にメモリセルMC[1,1]、MC[2,1]及びメモリセルMCre
f[1]、MCref[2]に着目したが、メモリセルMC及びメモリセルMCrefの
数は任意に設定することができる。メモリセルMC及びメモリセルMCrefの行数mを
任意の数iとした場合の差分電流ΔIαは、次の式で表すことができる。
ΔIα=2kΣW[i,1]X[i] (E17)
また、メモリセルMC及びメモリセルMCrefの列数nを増やすことにより、並列して
実行される積和演算の数を増やすことができる。
以上のように、半導体装置MACを用いることにより、第1のデータと第2のデータの積
和演算を行うことができる。なお、メモリセルMC及びメモリセルMCrefとして図1
4に示す構成を用いることにより、少ないトランジスタ数で積和演算回路を構成すること
ができる。そのため、半導体装置MACの回路規模の縮小を図ることができる。
半導体装置MACをニューラルネットワークにおける演算に用いる場合、メモリセルMC
の行数mは一のニューロンに供給される入力データの数に対応させ、メモリセルMCの列
数nはニューロンの数に対応させることができる。例えば、図12(A)に示す中間層H
Lにおいて半導体装置MACを用いた積和演算を行う場合を考える。このとき、メモリセ
ルMCの行数mは、入力層ILから供給される入力データの数(入力層ILのニューロン
の数)に設定し、メモリセルMCの列数nは、中間層HLのニューロンの数に設定するこ
とができる。
なお、半導体装置MACを適用するニューラルネットワークの構造は特に限定されない。
例えば半導体装置MACは、畳み込みニューラルネットワーク(CNN)、再帰型ニュー
ラルネットワーク(RNN)、オートエンコーダ、ボルツマンマシン(制限ボルツマンマ
シンを含む)などに用いることもできる。
以上のように、半導体装置MACを用いることにより、ニューラルネットワークの積和演
算を行うことができる。さらに、セルアレイCAに図14に示すメモリセルMC及びメモ
リセルMCrefを用いることにより、演算精度の向上、消費電力の削減、または回路規
模の縮小を図ることが可能な集積回路を提供することができる。
本実施の形態は、他の実施の形態と適宜組み合わせることができる。
AD:文章解析データ、ADref:参照用文章解析データ、C11:容量素子、C21
:容量素子、ID:IDFデータ、KD:キーワードデータ、KW:キーワード、KW
:キーワード、KW:キーワード、KW:キーワード、LD:ランキングデータ、N
N:ニューラルネットワーク、R1:抵抗素子、RD:関連語データ、RS:関連度、R
W:関連語、RWx1:関連語、RWx2:関連語、RWxy:関連語、TD:文章デー
タ、TDref:参照用文章データ、Tr11:トランジスタ、Tr12:トランジスタ
、Tr21:トランジスタ、Tr22:トランジスタ、Tr23:トランジスタ、VD:
ベクトルデータ、100:文書検索システム、101:入力部、102:伝送路、103
:処理部、105:記憶部、107:データベース、109:出力部、150:文書検索
システム、151:サーバ、152:端末、161a:通信部、161b:通信部、16
2:伝送路、163a:処理部、163b:処理部、165:記憶部、167:データベ
ース、168:伝送路、169:入出力部

Claims (22)

  1. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語を用いて、前記文章データに関連または類似するデータを検索する文書検索方法。
  2. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語の変更を受け付け、前記受け付け後の前記キーワード及び前記関連語を用いて、前記文章データに関連または類似するデータを検索する文書検索方法。
  3. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる前記キーワードの分散表現ベクトル及び前記単語の分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語を用いて、前記文章データに関連または類似するデータを検索する文書検索方法。
  4. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる前記キーワードの分散表現ベクトルと前記単語の分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語の変更を受け付け、前記受け付け後の前記キーワード及び前記関連語を用いて、前記文章データに関連または類似するデータを検索する文書検索方法。
  5. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  6. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語の変更を受け付け、
    前記受け付け後の前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  7. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる前記キーワードの分散表現ベクトル及び前記単語の分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  8. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる前記キーワードの分散表現ベクトル及び前記単語の分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語の変更を受け付け、
    前記受け付け後の前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  9. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    前記重みの修正を受け付け、
    複数の第2の参照用文章解析データのそれぞれに対して、前記受け付け後の重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  10. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語の変更を受け付け、
    前記受け付け後の前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    前記重みの修正を受け付け、
    複数の第2の参照用文章解析データのそれぞれに対して、前記受け付け後の重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  11. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる前記キーワードの分散表現ベクトル及び前記単語の分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    前記重みの修正を受け付け、
    複数の第2の参照用文章解析データのそれぞれに対して、前記受け付け後の重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  12. 文章データに含まれるキーワードを抽出し、
    複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる前記キーワードの分散表現ベクトル及び前記単語の分散表現ベクトルを用いて、前記複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出し、
    前記キーワード及び前記関連語の変更を受け付け、
    前記受け付け後の前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
    前記重みの修正を受け付け、
    複数の第2の参照用文章解析データのそれぞれに対して、前記受け付け後の重みに基づいて点数を付与し、
    前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
    前記ランキングデータを出力する、文書検索方法。
  13. 請求項7、8、11、及び12のいずれか一において、
    前記キーワードの前記重みは、前記キーワードの、前記複数の第1の参照用文章解析データまたは前記複数の第2の参照用文章解析データにおける逆文書頻度に基づいた値であり、
    前記関連語の前記重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記重みと、の積である、文書検索方法。
  14. 請求項5乃至8のいずれか一、または請求項7及び8のいずれか一を引用する請求項13において、
    前記点数の付与は、前記キーワードまたは前記関連語と一致する単語を有する前記第2の参照用文章解析データに対して、前記重みに基づいた点数を付与することにより行う、文書検索方法。
  15. 請求項9乃至12のいずれか一、または請求項9乃至12のいずれか一を引用する請求項13において、
    前記点数の付与は、前記キーワードまたは前記関連語と一致する単語を有する前記第2の参照用文章解析データに対して、前記受け付け後の重みに基づいた点数を付与することにより行う、文書検索方法。
  16. 請求項5乃至15のいずれか一において、
    前記複数の第1の参照用文章解析データは、前記複数の第2の参照用文章解析データと同一である、文書検索方法。
  17. 請求項5乃至16のいずれか一において、
    前記文章データの形態素解析を行うことで解析データを生成し、
    前記複数の第1の参照用文章解析データまたは前記複数の第2の参照用文章解析データにおける逆文書頻度の高さに基づいて、前記解析データに含まれる単語の中から前記キーワードを抽出する、文書検索方法。
  18. 請求項5乃至17のいずれか一において、
    第2の参照用文章データの形態素解析を行うことで前記第2の参照用文章解析データを生成する、文書検索方法。
  19. 請求項1乃至18のいずれか一において、
    第1の参照用文章データの形態素解析を行うことで前記第1の参照用文章解析データを生成する、文書検索方法。
  20. 請求項1乃至19のいずれか一において、
    前記単語の分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索方法。
  21. 請求項1乃至20のいずれか一に記載の文書検索方法を実行するサーバと、
    前記サーバに前記文章データを供給し、前記サーバから前記ランキングデータを供給される電子機器と、を有し、
    前記サーバと前記電子機器は、有線通信及び無線通信のうち一方または双方により通信を行う文書検索システム。
  22. 請求項1乃至20のいずれか一に記載の文書検索方法をコンピュータに実行させるプログラム。
JP2020158272A 2018-03-23 2020-09-23 文書検索方法、文書検索システム、プログラム Active JP6916941B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018055934 2018-03-23
JP2018055934 2018-03-23
JP2020508098A JP7321143B2 (ja) 2018-03-23 2019-03-13 文書検索システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020508098A Division JP7321143B2 (ja) 2018-03-23 2019-03-13 文書検索システム

Publications (2)

Publication Number Publication Date
JP2021007024A true JP2021007024A (ja) 2021-01-21
JP6916941B2 JP6916941B2 (ja) 2021-08-11

Family

ID=67986795

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2020508098A Active JP7321143B2 (ja) 2018-03-23 2019-03-13 文書検索システム
JP2020154415A Withdrawn JP2021072102A (ja) 2018-03-23 2020-09-15 文書検索方法、文書検索装置
JP2020158272A Active JP6916941B2 (ja) 2018-03-23 2020-09-23 文書検索方法、文書検索システム、プログラム
JP2023120817A Pending JP2023134810A (ja) 2018-03-23 2023-07-25 文書検索方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2020508098A Active JP7321143B2 (ja) 2018-03-23 2019-03-13 文書検索システム
JP2020154415A Withdrawn JP2021072102A (ja) 2018-03-23 2020-09-15 文書検索方法、文書検索装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023120817A Pending JP2023134810A (ja) 2018-03-23 2023-07-25 文書検索方法

Country Status (6)

Country Link
US (2) US11789953B2 (ja)
JP (4) JP7321143B2 (ja)
KR (1) KR20200134265A (ja)
CN (1) CN112136126A (ja)
DE (1) DE112019001497T5 (ja)
WO (1) WO2019180546A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11409754B2 (en) * 2019-06-11 2022-08-09 International Business Machines Corporation NLP-based context-aware log mining for troubleshooting
US11922549B2 (en) 2019-07-19 2024-03-05 Semiconductor Energy Laboratory Co., Ltd. Object-to-text conversion method and system
US20230244705A1 (en) * 2020-06-11 2023-08-03 Shimadzu Corporation Method, System, and Device for Evaluating Performance of Document Search
CN114691965A (zh) * 2020-12-29 2022-07-01 北京达佳互联信息技术有限公司 简历推荐方法、岗位推荐方法、电子设备
CN115329051B (zh) * 2022-10-17 2022-12-20 成都大学 一种多视角新闻信息快速检索方法、系统、存储介质及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JP2015041239A (ja) * 2013-08-21 2015-03-02 Kddi株式会社 メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法
JP2017134675A (ja) * 2016-01-28 2017-08-03 日本放送協会 情報検索装置及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263521A (ja) 1995-03-24 1996-10-11 Fuji Xerox Co Ltd 文書登録検索システム
JP2000207422A (ja) * 1999-01-13 2000-07-28 Fujitsu Ltd 概念シソ―ラスを用いた文書の検索及び格付けシステム並びに方法
JP2007065745A (ja) 2005-08-29 2007-03-15 Canon Inc 文書検索方法および文書検索装置、プログラム
CN201000602Y (zh) * 2007-01-05 2008-01-02 鸿富锦精密工业(深圳)有限公司 电脑关机节能电路
JP5186453B2 (ja) 2009-08-07 2013-04-17 ヤフー株式会社 検索装置及び方法
US9280595B2 (en) * 2012-08-30 2016-03-08 Apple Inc. Application query conversion
US20140324808A1 (en) 2013-03-15 2014-10-30 Sumeet Sandhu Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis
JP6674838B2 (ja) 2015-05-21 2020-04-01 株式会社半導体エネルギー研究所 電子装置
US11645317B2 (en) 2016-07-26 2023-05-09 Qualtrics, Llc Recommending topic clusters for unstructured text documents
US10810214B2 (en) * 2017-11-22 2020-10-20 Facebook, Inc. Determining related query terms through query-post associations on online social networks
US11182806B1 (en) * 2018-01-04 2021-11-23 Facebook, Inc. Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
US10891943B2 (en) 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
US11086857B1 (en) 2018-05-15 2021-08-10 Intuit Inc. Method and system for semantic search with a data management system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JP2015041239A (ja) * 2013-08-21 2015-03-02 Kddi株式会社 メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法
JP2017134675A (ja) * 2016-01-28 2017-08-03 日本放送協会 情報検索装置及びプログラム

Also Published As

Publication number Publication date
US11789953B2 (en) 2023-10-17
JP2023134810A (ja) 2023-09-27
US20200409963A1 (en) 2020-12-31
JP6916941B2 (ja) 2021-08-11
KR20200134265A (ko) 2020-12-01
CN112136126A (zh) 2020-12-25
JP7321143B2 (ja) 2023-08-04
JPWO2019180546A1 (ja) 2021-03-11
JP2021072102A (ja) 2021-05-06
DE112019001497T5 (de) 2021-01-07
WO2019180546A1 (ja) 2019-09-26
US20210026861A1 (en) 2021-01-28

Similar Documents

Publication Publication Date Title
JP6916941B2 (ja) 文書検索方法、文書検索システム、プログラム
WO2020217140A1 (ja) 文書検索システム、および文書検索方法
Rintyarna et al. Enhancing the performance of sentiment analysis task on product reviews by handling both local and global context
Zhang et al. A quantum-inspired sentiment representation model for twitter sentiment analysis
JP2020205105A (ja) システム
Li et al. Learning distributed word representation with multi-contextual mixed embedding
Lin et al. An empirical study on sentiment classification of chinese review using word embedding
Sang et al. Multi-modal multi-view Bayesian semantic embedding for community question answering
Zhan et al. PathReasoner: Explainable reasoning paths for commonsense question answering
Islam et al. Technical approach in text mining for stock market prediction: A systematic review
Melville et al. Active dual supervision: Reducing the cost of annotating examples and features
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和系统
Mahmoud et al. Hybrid Attention-based Approach for Arabic Paraphrase Detection
Anumol Babu Efficient density based clustering of tweets and sentimental analysis based on segmentation
Riduan et al. A Systematic Literature Review of Text Classification: Datasets and Methods
Siddique et al. A review of reverse dictionary: Finding words from concept description
Zhu et al. A named entity recognition model based on ensemble learning
JP2023076598A (ja) 情報検索の方法
D’Silva et al. Automatic text summarization of Konkani Folk tales using supervised machine learning algorithms and language independent features
Li et al. Tourist sentiment mining based on deep learning
Vergeest Using N-grams and Word Embeddings for Twitter Hashtag Suggestion
Geng Clinical name entity recognition using conditional random field with augmented features
Kashtriya et al. A Review on Clinical Named Entity Recognition
Zhang et al. Query Classification Based on Automatic Learning Query Representation
Kandimalla Subject Category Classification of Scholarly Papers Using Deep Attentive Neural Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200923

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200923

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210716

R150 Certificate of patent or registration of utility model

Ref document number: 6916941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150