JP2019003472A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2019003472A
JP2019003472A JP2017118480A JP2017118480A JP2019003472A JP 2019003472 A JP2019003472 A JP 2019003472A JP 2017118480 A JP2017118480 A JP 2017118480A JP 2017118480 A JP2017118480 A JP 2017118480A JP 2019003472 A JP2019003472 A JP 2019003472A
Authority
JP
Japan
Prior art keywords
keyword
extracted
topic
information processing
topics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017118480A
Other languages
English (en)
Inventor
康裕 森田
Yasuhiro Morita
康裕 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Primagest Inc
Original Assignee
Primagest Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Primagest Inc filed Critical Primagest Inc
Priority to JP2017118480A priority Critical patent/JP2019003472A/ja
Publication of JP2019003472A publication Critical patent/JP2019003472A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】媒体図面や非定型の文書ファイルの分類を適切に行う情報処理装置及び情報処理方法を提供する。【解決手段】イメージ情報に含まれるテキストを抽出し、抽出したテキスト中の形態素を解析して単語群を抽出し、抽出した単語群から統計重み付け処理により特徴的キーワードを抽出し、抽出したキーワードに従って読み込まれたイメージ情報の分類を可能とすると共に、抽出したキーワードから選択した有効なキーワードをトピック(カテゴリ)数の初期値より順次分散表現モデルを作成し、作成した分散表現モデルのトピック(カテゴリ)軸で前記読み込まれたイメージ情報あるいは文書情報の分類・可視化を行う。分散表現モデル作成時に、有効なキーワードを分散表現ベクトルで表し、ベクトル値が最大のトピック(カテゴリ)に一票を投票して横軸とし、一票もはいらなかったトピックがあると、トピック数を減じて分散表現モデルを再作成する。【選択図】図2

Description

本発明は、紙媒体図面や非定型の文書ファイルの分類を行う情報処理装置及び情報処理方法に関するものである。
現在は経済活動を行うに際してその多くの活動が文書に基づいて行われており、公的に保存期間が定められているものも多い。このような文書については従来専用の保管スペースを確保して保管していた。そして、保管した文書の検索は保管リストを参照しながら書類をめくるなどして抽出していた。
その後デジタル処理技術の発達により、文書情報をそのまま読み込んでイメージ情報として記憶し、原本は保管費用の廉価な倉庫などに保管し、書類確認が必要な時には記憶したイメージ情報を読み出してきて表示画面に表示して確認していた。
あるいは、当該書類に記載されている情報の有効利用を図るため、記載内容を例えば文字認識してキャラクタデータに変換してデジタルデータとしても記憶し、記載内容の検索を可能にしたものが提供されるようになってきている。
更に、近時では帳票類のみならず、各種機器の設計図面などもイメージ化して登録することも行われてきている。この設計図面、例えば機械系の設計図面では、書類に記載されている文字情報をキーワードとして所望の部品に類似する部品の図面を検索しようとしても。満足のいく検索結果は得られなかった。
そこで、類似部品の図面を検索する方法として、書類イメージに表示されている文字情報の単語毎の文字列を書類イメージに対応するインデックスとすると共に、書類イメージに書類種別IDを付与し、インデックスと対応つけて登録されている書類イメージの読み出しキーワードとして記憶されている書類イメージを読み出す方法が提案されていた(特許文献1)。
特開2014−235619号公報
しかしながら、顧客の希望をいろいろと聞いていくうちに、顧客が真に望んでいるのは類似部品図面の検索のみならず、大量に存在する紙媒体図面や非定型の文書ファイルを適切に分類して登録することにあることが判明した。しかしながら、このような顧客の要求を満たす情報処理装置は実現していなかった。
そこで、分散表現技術を用いて分類処理を行ったが、人間が意図する分類結果を得ることが困難であった。本発明は、紙媒体図面や非定型文書ファイルを適切に分類して記憶することが出来る情報処理装置及び情報処理方法を提供することを目的とする。
本発明は上記の問題点を解決し、例えば、紙媒体図面や非定型の文書ファイルの分類を適切に行うことが出来る情報処理装置及び情報処理方法を提供することを目的としてなされたもので、係る目的を達成する一手段として例えば以下の構成を備える。
即ち、イメージ情報として読み込まれた図面あるいは文書情報の分類を行う情報処理装置であって、前記イメージ情報に含まれるテキストを抽出するテキスト抽出手段と、前記テキスト抽出手段が抽出したテキスト中の形態素を解析して単語を抽出する単語抽出手段と、前記単語抽出手段が抽出した単語群から統計重み付け処理によりキーワードを抽出するキーワード抽出手段とを備え、前記キーワード抽出手段で抽出したキーワードに従って前記読み込まれた図面あるいは文書情報の分類を可能とすることを特徴とする情報処理装置とする。
そして例えば、前記キーワード抽出手段が抽出したキーワードから選択した有効なキーワードを用いて前記読み込まれた図面あるいは文書情報の分類を行う請求項1記載の情報処理装置であって、前記有効なキーワードをトピック(カテゴリ)数の初期値より順次分散表現モデルを作成する分散表現モデル作成手段と、前記分散表現モデル作成手段で作成した分散表現モデルのトピック(カテゴリ)軸で前記読み込まれた図面あるいは文書情報の分類・可視化を行う可視化手段とを備え、前記分散表現モデル作成手段は前記有効なキーワードを分散表現ベクトルで表しベクトル値が最大のトピック(カテゴリ)に1を投票して横軸とし、一票もはいらなかったトピックがあるとトピック数を減じ分散表現モデルを再作成することを特徴とする。
また例えば、前記分散表現モデル作成手段は、トピック(カテゴリ)数の初期値から分散表現をはじめ、キーワードの割当がないトピックがなくなるまでトピック数の分散表現を行うことを特徴とする。
または、イメージ情報として読み込まれた図面あるいは文書情報の分類を行う情報処理装置における情報方法であって、前記イメージ情報に含まれるテキストを抽出し、
前記抽出したテキスト中の形態素を解析して単語群を抽出し、前記単語群から統計重み付け処理により特徴的キーワードを抽出し、抽出したキーワードに従って前記読み込まれた図面あるいは文書情報の分類を可能とすることを特徴とする情報処理方法とする。
また例えば、前記抽出したキーワードから選択した有効なキーワードを用いて前記読み込まれた図面あるいは文書情報の分類を行う請求項4記載の情報処理方法であって、前記有効なキーワードをトピック(カテゴリ)数の初期値より順次分散表現モデルを作成する分散表現モデル作成工程と、前記分散表現モデル作成工程で作成した分散表現モデルのトピック(カテゴリ)軸で前記読み込まれた図面あるいは文書情報の分類・可視化を行う可視化工程とを有し、前記分散表現モデル作成工程では前記有効なキーワードを分散表現ベクトルで表しベクトル値が最大のトピック(カテゴリ)に1を投票して横軸とし、一票もはいらなかったトピックがあるとトピック数を減じ分散表現モデルを再作成する情報処理方法とすることを特徴とする。
更に例えば、前記分散表現モデル作成手段は、トピック(カテゴリ)数の初期値から分散表現をはじめ、キーワードの割当がないトピックがなくなるまでトピック数の分散表現を行うことを特徴とする。
本発明によれば、紙媒体図面や非定型文書を適切に分類してイメージ情報として登録させることが可能となり、後日、分類に従った読み出しを行う際にも的確に所望の関連イメージ情報を読み出すことが出来る。
本発明に係る一発明の実施の形態例の情報処理システムの基本構成を示すブロック図である。 本発明に係る一発明の実施の形態例の図面又は非定型文書情報の分類制御処理の概要を説明するためのフローチャート図である。 本実施の形態例におけるテキスト中に含まれるキーワードとなり得る単語を分散表現モデルとして表した単語ベクトル化のイメージ図である。 本実施の形態例における分散表現の制御処理例を説明するための図である。
10 紙媒体図面
20 非定型文書
100 全体制御装置
110 書類読み取り装置
120 入力装置
122 テキスト抽出部
124 キーワード抽出・選択部通信装置
130 分類制御装置
132 分類噐
134 分散表現モデル作成部
136 トピック最適化部
140 ネットワーク制御装置
150 プリンタ
170 操作装置
171 表示装置
210 図面データサーバ
220 非定型文書サーバ
230 分類学習サーバ
240 キーワードサーバ
245 分類結果記憶部
300 ネットワーク網
本発明に係る発明を実施するための形態の一例について図面を参照して以下詳細に説明する。まず、図1を参照して本実施の形態における情報処理装置の概略構成を説明する。図1は本発明に係る一実施の形態の一例の情報処理装置のシステム構成図である。
図1において、10は処理対象(分類対象)の紙媒体図面であり、以下の説明では構成部品の一覧が表された機械図面を例として説明を行う。本実施の形態において処理対象とする図面の例を図2に示す。本実施の形態において処理対象の紙媒体図面は図2に示す例に限定されるものではなく、図面に表されている物品の構成品が図面内に一覧で、あるいは引き出し線などで表されていればその記載形態に制限はない。図2に示すように下の領域に図示された製品の構成部品の一覧表が記載されている。
図1の20に示すは内容が文章で表されているが非定型の文書であり、文章情報も参照することが出来る。100は本システムの全体制御を司る全体制御装置、110は装置にセットされた紙媒体図面や非定型文書などを順次読み込んでイメージ情報に変換して全体制御装置100に出力する書類読み取り装置である。全体制御装置100はこの書類読み取り装置110よりの読み取りイメージ情報をタグを付与して図面データサーバ210に登録する。
120は読み取った書類に表された文字パターンを認識して図面に表されたテキストを抽出し、対応するキャラクタコードに変換してテキスト化するテキスト制御装置であり、書類読み取り装置110が読み取った書類イメージ情報中のテキスト表示領域を抽出して文字認識するテキスト抽出部122及び、テキスト抽出部122で抽出したテキスト情報に対して、後述する手法に従って形態素(品詞)解析処理を行なって単語を抽出すると共に、抽出した単語群から統計重み付け処理により特徴的なキーワードを自動的に抽出して選択するキーワード抽出・選択部124を備えている。
130は処理対象文書(テキスト)を最適化したトピック(カテゴリ)軸で文書を分類、可視化して例えば操作端末170の表示画面に表示可能な分類制御装置であり、テキスト制御装置120で抽出したテキストの形態素解析を行ない、テキスト(文章)から単語を抽出する形態素解析部132、トピック(カテゴリ)の初期値から順次分散表現モデルを作製する分散表現モデル作製部134,キーワードの割当がない“冗長”なトピックがなくなるまでトピック数を最適化するトピック最適化部136を備えている。
140はネットワーク網300に接続し、ネットワーク網300を介して不図示の他の情報処理装置との間での通信制御を可能とするネットワーク制御部である。150は処理データやサーバ登録情報等を印刷出力するプリンタ、170は本実施の形態例システムの制御指示等を入力可能な操作装置である。
更に210は書類読み取り装置110で読み取った紙媒体図面を格納保持する図面データサーバである。220は書類読み取り装置110で読み取った非定型文書を格納保持する非定型文書サーバである。230は本実施の形態例システムで最適化された可視・分類化の処理結果などを登録保持する分類学習サーバである。
240は分別対象の種別特定のための種別キーワードを登録する種別キーワードサーバ、245は、本実施形態におけるTF−IDFキーワードによる分散表現制御結果である分散表現モデルを登録保持するベクトルモデル記憶部である。
以上の構成を備える本実施の形態システムにおける紙媒体図面又は非定型文書の分類処理について説明する。本実施形態においては、TF−IDFキーワードによる分散表現制御を説明する。
本実施の形態例では、まず紙媒体図面又は非定型文書に含まれている単語をベクトルとして表現するAI技術である分散表現を採用している。分散表現を採用した、ベクトル化した表現であるベクトル化のイメージ図を図3に示す。これにより、例えば日本語として日常的に使用する語彙数は数万から数十万といわれるなか、分散表現によれば各単語を200次元程度のベクトルとして表現することが可能である。
図3に示すようにベクトル化結果として、宗教、金融、天候、等については現在のAI技術では語彙数が少ない。ベクトル化の結果、単語間の類似度の計算や単語間での加算・減算などが可能となる。しかしながら、分散表現モデルを作成する際に指定制御可能なのは次元数のみであり、語彙数が少ない場合では分類結果が満足のいくものではない。
そこで本実施の形態例では、分散表現制御にTF−IDFキーワード手法を取り入れることとした。この分散表現制御を実行させることにより、人間が行う場合に近いキーワードの抽出が略実現することが判明した。
本実施の形態例で採用するTF−IDF法は、書類などの分類のためのキーワードの抽出に、TF(term frequency)という指標と、IDF(inverse document frequency)という指標の2つの指標を用いることで、キーワードに対する個々の図面又は非定型文書のスコアリングを、キーワードの特殊性をふまえた上で行うことができる手法である。
TFは、図面又は非定型文書ページ内でキーワードがどれだけ多く使用されているのかを示す指標であり、キーワードを多く含む図面又は非定型文書ページほど、そのキーワードについて詳しく説明しているものと見なすものである。IDFは、そのキーワードがどれだけの数の図面又は非定型文書ページで使用されているかを示す指標である。多くの図面又は非定型文書ページで使用されているキーワードより、少ない図面又は非定型文書ページで使用されているキーワードの方が、そのページの特長をよく表すものとみなしてキーワードの抽出を行う。
以下、図2のフローチャートも参照して本実施の形態例における具体的な分類制御を説明する。図2は本実施の形態例の分類処理の概要を説明するためのフローチャートである。
処理対象の紙媒体図面10若しくは非定型文書15は書類読み取り装置110で読み込まれ、イメージデータとして図面データサーバ210若しくは非定型文書サーバ220に記憶登録される。そして処理に際してステップS1に示すように各サーバ210,220から読み取りイメージを抽出し、ステップS3に示すように抽出イメージ情報をテキスト制御装置120のテキスト抽出部122に送り、図面若しくは文書中のテキスト部分を抽出する。
続くステップS5において、抽出したテキスト中の形態素(品詞)解析を行い、抽出したテキスト中の単語を抽出する。続いてステップS7で、上記したTF−IDF法に従って抽出した単語群から統計重み付け処理により特徴的なキーワードを自動的に抽出する。続いてステップS10において、抽出されたキーワードがすでに処理中の文書又は図面でキーワードとして採用され、キーワードサーバ240に記憶された形態素か否かを調べる。すでに採用されたキーワードでない場合にはステップS13に進み、キーワード選択処理を行う。
ステップS13は、人間の行う手作業を含む処理であり、現時点では、抽出されたキーワードを例えば操作装置70の表示画面に表示し、操作者がこの表示画面を見てキーワードとしてふさわしいか否かを判断する。キーワードとしてふさわしいと判断した場合にはキーワードとして選択してキーワードサーバ240に登録してステップS15に進む。キーワードとしてふさわしくない場合にはキーワードとして選択せずにステップS15に進む。
ステップS13においてキーワードの選択を現在は人力で行っているが、これは現時点で十分な分類実績が得られていないからであり、十分な分類蓄積が得られた場合には、ここで抽出したキーワードをそのままキーワードとして選択するように制御してもよい。
ステップS13でのキーワードの選択が行われるとステップS15に進み、対象図面・書類から抽出されたテキストの全形態素に対する処理が終了し、すべてのキーワード抽出処理が終了したか否かを調べる。まだ処理していないテキストが残っている場合にはステップS7に戻り、次のキーワード抽出処理に移行する。
キーワードを採用するか否かは当初は操作者自らが判断して当該文書又は図面の特徴的なキーワードとして適切であると判断できればキーワードとして選択する。このように当初は操作者が適切なキーワードか否かを判断するが、一定数以上の文章又は図面の分類が行われると、キーワードの選択結果の蓄積が行われる。従って、この蓄積結果を生かして一定数以上の蓄積が得られたケースは自動選択するように制御しても良い。この場合には、前段階として選択結果の確認を受けるように制御して、選択結果に問題がないことを確認して自動的に選択するように制御することが望ましい。
一方、すべての抽出テキストに対する処理が終了した場合にはステップS15よりステップS20に進み、選択したキーワードを用いてトピック(カテゴリ)数初期値から始める分散表現モデルの作成を行う。最初はトピック数初期値を用いて分散表を作成する。続くステップS22ですべてのキーワードに対するトピック最適化が終了したか否か、すなわち、キーワードの割当がない、“冗長な”トピックがなくなったか否かを調べる。キーワードの割当があるトピックがある場合にはステップS20に戻り、次のトピックの分類表の作成を行う。
このようにしてすべてのトピックに対する処理が終了するとステップS22からステップS25に進み、最適化されたトピック(カテゴリ)軸で文書を分類し、分類結果を可視化するための可視化処理を行い、ステップS30に進む。
ステップS30では分類結果を分類結果記憶部245に記憶すると共に、図面データサーバ210,非定型文書サーバ220に登録されている図面データ、文書データのタグに分類結果を関連付けて登録する。これにより、後日分類結果に対応した検索が容易に行うことが出来る。例えばある部品について新たに改良した部品を設計しようとする場合に、新たに設計しようとする部品と関連する部品の設計図面を抽出するような場合に、分類が適切である事により、適切に関連する部品の設計図が抽出できる。
以上の制御で具体的処理におけるキーワードの抽出結果の例、トピック最適化例、分類・可視化処理の結果例を図4に示す。
図4の例は、技術文書の例であり、キーワードの抽出処理(ステップS7)では、TF−IDF(統計重み付け)により、特徴キーワードを自動的に抽出した結果の一覧である。
トピックの最適化処理では、抽出されたキーワードを分散表現ベクトルで表し、ベクトル値が最大のトピック(カテゴリ)に投票(横軸)する。そして、一票も入らなかったトピックがある場合、トピック数が”冗長”であるものとして、トピック数を減じ、分散表現モデルを再作成する。
図4の例では、初期トピック数は30から始め最終的に23に収束したトピックの最適化例となっている。
以上の説明における「トピック最適化」のロジック詳細と具体例を以下に示す。
[処理の例]
(1)擬似コード:
A. 文書から分散表現モデルをトピック数=Nで作成する。
:例えば、文書例としてニュース記事の文書群を想定する。
B.それぞれTF−IDF方式によりキーワード抽出を行う
:例えば、「プロ野球」、「Jリーグ」、「安倍政権」...などがキーワードとして抽出される。
B.1 分散表現のトピック・ベクトルで表現する。
:その結果、例えば、 プロ野球 = 0.5*T#1 + 0.1*T#2 + ... + 0.2*T#Nとなる。
B.2 もっとも高いベクトル値を示したトピックに投票する。
その結果、:「プロ野球」の場合、0.5のT#1に投票
C.ここで、もし一票も投票されていないトピックがあれば、
トピック数:Nを減じ、A.からやり直すことになる。
D. どのトピックも投票されている場合、処理を終了する。
(キーワードが1つ以上割り振られていることになる。)
:例えば、 T#1に「プロ野球」、「Jリーグ」等が割り振られることになる。
そして、:スポーツT#2に「安倍政権」が抽出される。
そこで人間の選択が入り「安倍政権」については、キーワード分類としては「政治」等が割り振られる。
以上説明したように本実施の形態例によれば、
従来はトピック数を指定し、自動で分散表現モデルが作成され、
後から人間がトピックの特徴キーワードを確認し、
各分散表現のトピック(軸)の意味について確認する必要があった。
しかしながら、本発明の実施の形態例によれば、
(1)統計的かつ人間が重視するキーワードを指標として使用し、
(2)トピック数を制御する。
(3)このため、処理の過程で各キーワードがトピックに割り当てられることで、各トピックの意味が自動的に可視化される。
(4)そのため、人間は、各文書の分類・分析等が容易に行え、
(5)自然言語による仮説・検証サイクルをまわすことができる。
以上説明したように本実施の形態例によれば、適切なキーワードが抽出することができる。
ここで、分散表現は、単語のベクトル化技術であり、似たような文脈の文書・単語を抽出することができる。そして、ある程度の表記ゆれ・変化については、ベクトル数値として許容できることから、準・非定型の文章・文書・単語ブロック間の類似判定に適用することが可能である。
これまでは分類カテゴリ(“トピック”)に対し、人による事後の意味付けが必要であったが、本技術を適用することで、人間の意図・意味付けに沿った分類が可能となる。
また、従来、個別プログラミング、チューニングにより対応していた各案件の準・非定型の文書に対して、AI自動分類の適用範囲が拡大する。
上記に鑑みれば、製造業含め以下のような案件・領域で本実施の形態例技術を適用可能と考えられる。
即ち、統計センターにおける、「職業欄の認識率向上・研究プロジェクト」職業カテゴリの自動分類に適用が考えられる。
「図面自動分類」への適用では、図面内の表題欄/部品表等、表の自動分類等に適用できる。図形的判別の機械学習におけるラベル(教師情報)として活用しても良い。

Claims (6)

  1. イメージ情報として読み込まれた図面あるいは文書情報の分類を行う処理装置であって、
    前記イメージ情報に含まれるテキストを抽出するテキスト抽出手段と、
    前記テキスト抽出手段が抽出したテキスト中の形態素を解析して単語を抽出する単語抽出手段と、
    前記単語抽出手段が抽出した単語群から統計重み付け処理によりキーワードを抽出するキーワード抽出手段とを備え、
    前記キーワード抽出手段で抽出したキーワードに従って前記読み込まれた図面あるいは文書情報の分類を可能とすることを特徴とする情報処理装置。
  2. 前記キーワード抽出手段が抽出したキーワードから選択した有効なキーワードを用いて前記読み込まれた図面あるいは文書情報の分類を行う請求項1記載の情報処理装置であって、
    前記有効なキーワードをトピック(カテゴリ)数の初期値より順次分散表現モデルを作成する分散表現モデル作成手段と、
    前記分散表現モデル作成手段で作成した分散表現モデルのトピック(カテゴリ)軸で前記読み込まれた図面あるいは文書情報の分類・可視化を行う可視化手段とを備え、
    前記分散表現モデル作成手段は前記有効なキーワードを分散表現ベクトルで表しベクトル値が最大のトピック(カテゴリ)に一票を投票して横軸とし、一票もはいらなかったトピックがあるとトピック数を減じ分散表現モデルを再作成することを特徴とする情報処理装置。
  3. 前記分散表現モデル作成手段は、トピック(カテゴリ)数の初期値から分散表現をはじめ、キーワードの割当がないトピックがなくなるまでトピック数の分散表現を行うことを特徴とする請求項2記載の情報処理装置。
  4. イメージ情報として読み込まれた図面あるいは文書情報の分類を行う情報処理装置における情報方法であって、
    前記イメージ情報に含まれるテキストを抽出し、
    前記抽出したテキスト中の形態素を解析して単語群を抽出し、
    前記単語群から統計重み付け処理により特徴的キーワードを抽出し、
    抽出したキーワードに従って前記読み込まれた図面あるいは文書情報の分類を可能とすることを特徴とする情報処理方法。
  5. 前記抽出したキーワードから選択した有効なキーワードを用いて前記読み込まれた図面あるいは文書情報の分類を行う請求項4記載の情報処理方法であって、
    前記有効なキーワードをトピック(カテゴリ)数の初期値より順次分散表現モデルを作成する分散表現モデル作成工程と、
    前記分散表現モデル作成工程で作成した分散表現モデルのトピック(カテゴリ)軸で前記読み込まれた図面あるいは文書情報の分類・可視化を行う可視化工程とを有し、
    前記分散表現モデル作成工程では前記有効なキーワードを分散表現ベクトルで表しベクトル値が最大のトピック(カテゴリ)に一票を投票して横軸とし、一票もはいらなかったトピックがあるとトピック数を減じ分散表現モデルを再作成することを特徴とする情報処理方法。
  6. 前記分散表現モデル作成手段は、トピック(カテゴリ)数の初期値から分散表現をはじめ、キーワードの割当がないトピックがなくなるまでトピック数の分散表現を行うことを特徴とする請求項5記載の情報処理方法。
JP2017118480A 2017-06-16 2017-06-16 情報処理装置及び情報処理方法 Pending JP2019003472A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017118480A JP2019003472A (ja) 2017-06-16 2017-06-16 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017118480A JP2019003472A (ja) 2017-06-16 2017-06-16 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2019003472A true JP2019003472A (ja) 2019-01-10

Family

ID=65006169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017118480A Pending JP2019003472A (ja) 2017-06-16 2017-06-16 情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP2019003472A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502630A (zh) * 2019-07-31 2019-11-26 北京字节跳动网络技术有限公司 信息处理方法及设备
JP2020154934A (ja) * 2019-03-22 2020-09-24 富士通株式会社 消費電力予測プログラム、消費電力予測方法、および消費電力予測装置
CN112860726A (zh) * 2021-02-07 2021-05-28 天云融创数据科技(北京)有限公司 结构化查询语句分类模型训练方法和装置
CN113434636A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于语义的近似文本搜索方法、装置、计算机设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154934A (ja) * 2019-03-22 2020-09-24 富士通株式会社 消費電力予測プログラム、消費電力予測方法、および消費電力予測装置
JP7259451B2 (ja) 2019-03-22 2023-04-18 富士通株式会社 消費電力予測プログラム、消費電力予測方法、および消費電力予測装置
CN110502630A (zh) * 2019-07-31 2019-11-26 北京字节跳动网络技术有限公司 信息处理方法及设备
CN110502630B (zh) * 2019-07-31 2022-04-15 北京字节跳动网络技术有限公司 信息处理方法及设备
CN112860726A (zh) * 2021-02-07 2021-05-28 天云融创数据科技(北京)有限公司 结构化查询语句分类模型训练方法和装置
CN113434636A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于语义的近似文本搜索方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
US10366154B2 (en) Information processing device, information processing method, and computer program product
US8577882B2 (en) Method and system for searching multilingual documents
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
JP5587821B2 (ja) 文書トピック抽出装置及び方法及びプログラム
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
JP2019003472A (ja) 情報処理装置及び情報処理方法
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN111581367A (zh) 一种题目录入的方法和系统
US11520835B2 (en) Learning system, learning method, and program
CN105260396A (zh) 字词检索方法和装置
KR102575507B1 (ko) 인공지능을 활용한 기사 작성 솔루션 및 장치
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
CN111506754B (zh) 图片检索方法、装置、存储介质及处理器
CN114186140A (zh) 社交互动信息的处理方法、装置、电子设备及存储介质
CN111611379A (zh) 一种文本信息分类方法、装置、设备及可读存储介质
CN111222312A (zh) 一种裁判文书结构化方法及装置