JP6905237B2 - Mail thread extractor, mail thread extraction method, and computer program - Google Patents
Mail thread extractor, mail thread extraction method, and computer program Download PDFInfo
- Publication number
- JP6905237B2 JP6905237B2 JP2021502189A JP2021502189A JP6905237B2 JP 6905237 B2 JP6905237 B2 JP 6905237B2 JP 2021502189 A JP2021502189 A JP 2021502189A JP 2021502189 A JP2021502189 A JP 2021502189A JP 6905237 B2 JP6905237 B2 JP 6905237B2
- Authority
- JP
- Japan
- Prior art keywords
- mail data
- data
- response
- thread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、メールのやり取り(メールスレッド)をまとめて抽出するためのメールスレッド抽出装置に関する。 The present invention relates to a mail thread extraction device for collectively extracting mail exchanges (mail threads).
従来、電子メールを共通の話題ごとに管理するための様々な技術が提案されている。例えば、特許文献1(特許第5199449号)には、電子メールのスレッド表示等について、電子メールデータの分類に関するメールデータ分類装置が開示されている。このメールデータ分類装置では、電子メールに含まれる単語と、その単語に対する返答の単語である応答句を対応させて記憶しておき、分類したい電子メールに含まれる単語に関するキーワードを検索し、応答句が含まれる電子メールを抽出して、これらを同一のグループとしてまとめ、表示する。 Conventionally, various techniques for managing e-mail for each common topic have been proposed. For example, Patent Document 1 (Patent No. 5199449) discloses an e-mail data classification device for classifying e-mail data for e-mail thread display and the like. In this mail data classification device, a word contained in an e-mail and a response phrase which is a reply word to the word are stored in association with each other, a keyword related to the word contained in the e-mail to be classified is searched, and the response phrase is searched. Extract emails that contain, group them together and display them.
また、電子メールのヘッダ部の情報である「タイトル」や「宛先」等を利用して電子メールのやり取りをまとめて抽出する技術は、従来広く用いられている。 Further, a technique for collectively extracting e-mail exchanges by using "title", "destination", etc., which are information in the header part of the e-mail, has been widely used in the past.
しかし、キーワードを用いたスレッド抽出は、キーワードがうまく設定されなければ適切な抽出結果を得ることが難しいという問題がある。また、「タイトル」や「宛先」を用いたスレッド抽出では、内容的には繋がりのあるメールであっても、「タイトル」や「宛先」が異なるとスレッドとして適切にまとめられないという問題もある。さらに、最近は、人工知能(AI)の利用が現実的になりつつあり、ニューラルネットワークを利用した学習済みモデルを用いてメールの内容に応じてメールのスレッドを抽出することも、AIの適用分野として想定される。 However, thread extraction using keywords has a problem that it is difficult to obtain an appropriate extraction result unless the keywords are set properly. In addition, thread extraction using "title" and "destination" has a problem that even if the contents of emails are connected, if the "title" and "destination" are different, the threads cannot be properly organized. .. Furthermore, recently, the use of artificial intelligence (AI) is becoming more realistic, and extracting mail threads according to the content of mail using a trained model using a neural network is also an application field of AI. Is assumed as.
本発明は、ニューラルネットワークを利用した学習済みモデルを用いて、メールのやり取りを漏れなく適切にメールスレッドとして抽出することが可能なメールスレッド抽出装置、メールスレッド抽出方法およびコンピュータプログラム等を提供することを目的とする。 The present invention provides a mail thread extraction device, a mail thread extraction method, a computer program, and the like that can appropriately extract mail exchanges as mail threads without omission by using a trained model using a neural network. With the goal.
上記の目的を達成するために、本発明のメールスレッド抽出装置は、
複数の電子メールデータを格納するメールデータ格納部と、
メールスレッドの起点となる起点メールデータを前記メールデータ格納部から取得する起点メールデータ取得部と、
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成する応答候補データ生成部と、
前記応答候補データ生成部によって生成された応答候補データに類似する応答メールデータを前記メールデータ格納部から取得する応答メールデータ取得部と、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成するメールスレッド生成部とを備える。In order to achieve the above object, the mail thread extraction device of the present invention
A mail data storage unit that stores multiple e-mail data, and
A starting point mail data acquisition unit that acquires starting point mail data that is the starting point of a mail thread from the mail data storage unit, and a starting point mail data acquisition unit.
A response candidate data generation unit that generates response candidate data corresponding to the origin mail data using a learned model that has learned the correspondence between the mail data and the corresponding response mail data.
A response mail data acquisition unit that acquires response mail data similar to the response candidate data generated by the response candidate data generation unit from the mail data storage unit, and a response mail data acquisition unit.
It includes a mail thread generation unit that generates a mail thread by combining the origin mail data and the response mail data.
本発明によれば、ニューラルネットワークを利用した学習済みモデルを用いて、電子メールのやり取りを漏れなく適切にメールスレッドとして抽出することが可能なメールスレッド抽出装置、メールスレッド抽出方法およびコンピュータプログラム等を提供することができる。 According to the present invention, a mail thread extraction device, a mail thread extraction method, a computer program, and the like capable of appropriately extracting e-mail exchanges as mail threads without omission by using a trained model using a neural network are provided. Can be provided.
以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一または相当部分には同一符号を付してその説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The same or corresponding parts in the drawings are designated by the same reference numerals, and the description thereof will not be repeated.
[第1の実施形態]
図1は、本発明の第1の実施形態に係るメールスレッド抽出システム100の概略構成を示すブロック図である。メールスレッド抽出システム100は、指定された検索条件に応じて、起点となるメールデータおよびそれに応答するメールデータを抽出し、抽出したメールデータをまとめてメールスレッドを生成する。ただし、メールスレッド抽出システム100は、従来のメールスレッド抽出システムのように、単純に件名や本文のテキストデータに所定のキーワードが含まれるか否かによって応答メールデータを抽出してメールスレッドを生成するものではなく、大量の学習用データに基づいて生成された学習済みモデルを用いて、応答メールデータを抽出し、メールスレッドを生成する。[First Embodiment]
FIG. 1 is a block diagram showing a schematic configuration of a mail
図1に示すように、メールスレッド抽出システム100は、抽出装置1と学習器2とを備えている。抽出装置1と学習器2とは、常時接続されている必要はない。例えば、学習器2は、クラウドシステムとして構成することができる。
As shown in FIG. 1, the mail
抽出装置1は、メールデータ解析部11、メールデータ格納部12、起点メールデータ取得部13、応答候補データ生成部14、応答メールデータ取得部15、およびメールスレッド生成部16を備えている。
The
メールデータ解析部11は、電子メールのメールデータを形態素解析したのち、ベクトル化する。メールデータのベクトル化は、一般的に文書データの形態素とそのIDによって構成する辞書によって行われる。図2に文書データの辞書化について示す。文書データの辞書化は、基になるメールデータを形態素解析し、これらにユニークなIDを与えることで行われる。各々のIDが辞書によって構成される解析空間の次元を表現する。メールデータのベクトル化は、ベクトル化したいメールデータを形態素解析し、辞書の形態素と照合して、各々のIDに対する該当数を一次元配列(ベクトル)で表現することにより行われる。なお、基になる文書データや辞書化の手法により、ベクトル表現した結果は変化するが、本発明の実施形態を限定するものではない。
The mail
メールデータ格納部12は、メールデータ解析部11でベクトル化された全てのメールデータを格納する。図3にメールデータ格納部12に格納されたメールデータの例を示す。メールデータ格納部12に格納されたメールデータには、例えばメール文書、ベクトル化データおよび日時が含まれる。
The mail
起点メールデータ取得部13は、指定された検索期間内におけるスレッド検索の起点になるメールデータをメールデータ格納部12から取得する。ここで検索期間およびスレッド検索の起点となるメールデータの指定は、例えば図4に示すようなユーザインタフェースを通じてユーザによって指定される。
The starting point mail
応答候補データ生成部14は、起点メールデータに対応する応答候補データを生成する。応答候補データ生成部14は、学習済みモデル14aを保持しており、起点メールデータを学習済みモデル14aに入力することで応答候補データが生成される。この学習済みモデル14aは、図1に示す学習器2で生成される。学習器2における学習済みモデル14aの生成については、後に詳しく説明する。
The response candidate
応答メールデータ取得部15は、応答候補データ生成部14で生成された応答候補データに類似したメールデータを、起点メールデータに応答する応答メールデータとしてメールデータ格納部12から取得する。応答メールデータが複数ある場合は、複数の応答メールデータを取得する。ここで、応答候補データとメールデータ格納部12に格納されたメールデータとの類似の判断は、応答候補データのベクトルと、メールデータ格納部12に格納されたメールデータのベクトルとの内積として求める。なお、このベクトルを用いて類似度を判断する手法において、ベクトルの内積として類似度を求める手法は本発明の実施形態を限定するものではなく、例えばユークリッド距離による手法を用いてベクトル同士の類似度を求めてもよい。
The response mail
メールスレッド生成部16は、メールデータ格納部12から取得した、起点メールデータおよび少なくとも一つの応答メールデータを組み合わせてメールスレッドを生成する。例えば、図5に示すような形でメールのやり取りがまとめられたメールスレッドが生成される。図5に示すメールスレッドの例においては、「年内最終日確認の件」と題する起点メールとそれに応答する4つの返信メールがスレッドとして表示される例を示す。
The mail
次に、学習器2の構成と機能について説明する。学習器2は、図1に示すようにメール学習用データ(教師データ)を入力し、学習用データ解析部21、データセット生成部22を経て、DNN23に学習させることにより、抽出装置1の応答候補データ生成部14で用いる学習済みモデルを作成する。学習器2は、学習用データ解析部21、データセット生成部22、DNN(ディープニューラルネットワーク)23、および学習済みモデル格納部24を備える。また、学習器2に入力する学習用データは、メールデータとそれに対する応答メールデータの組を教師データとして用いる。図6に質問(Question)、応答(Answer)の形でやり取りされる電子メールの例を示す。図6におけるQuestionおよびAnswerを対応付けて組として抽出し、それらの組を教師データとする。図7に教師データとして用いるメールデータとそれに対する応答メールデータの組の例を示す。
Next, the configuration and function of the
学習用データ解析部21は、上述の抽出装置1に備えるメールデータ解析部11と同様に、学習用データを形態素解析したのち、ベクトル化する。なお、学習用データ解析部21においては、メールデータとそれに対応する応答メールデータの組を学習用データとしてベクトル化する。
The learning
データセット生成部22は、教師データの入力文書をベクトル化したものと応答メールデータにラベル付けしたものをDNN23の入力となるデータセットとして生成する。
The data set generation unit 22 generates a vectorized version of the input document of the teacher data and a label of the response mail data as a data set to be input to the
DNN23は、入力メールデータをベクトル化したものと応答メールデータのラベルを関連付けるディープニューラルネットワークである。DNN23で行われる学習のイメージを図8に示す。図8に示すように、形態素解析されたQuestionメールデータと対応する正解ラベル付けされた応答メールデータをAnswerとして学習させる。例えばQuestion1に対応する応答メールデータをAnswer1として対応させて学習を行う。なお、DNN23で用いられるニューラルネットワークモデルは、畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN、LSTM)等のニューラルネットワークモデルが適用できるが、ニューラルネットワークモデルの種類は本発明を限定するものではない。
The
次に、上述したメールスレッド抽出装置100の動作について、フローチャートを用いて説明する。図9にメールスレッド抽出装置100の動作フローを示す。S101において、起点メールが指定されたか否かを判定する。起点メールの指定は、例えば図4に示すようなユーザインタフェースを通じてユーザから起点メールおよび検索期間が指定される。メールスレッド抽出装置100は、指定された検索期間内の起点メールデータをメールデータ格納部12から取得する(S102)。次に、メールスレッド抽出装置100は、取得した起点メールデータを応答候補データ生成部14の学習済みモデル14aに入力し、応答候補データを生成する(S103)。そして、応答メールデータ取得部15において、応答候補データに類似する応答メールデータをメールデータ格納部12から取得する(S104)。メールデータ格納部12から取得した起点メールデータと少なくとも一つの応答メールデータを組み合わせて、メールスレッドを生成する(S105)。例えば図5に示すような形で起点メールに対する応答メールデータがメールスレッドとしてまとまって出力(表示)される。図5の例では、「年内最終日確認の件」という件名で2018年12月10日の12:00に発信されたメールに対する複数の返信メールがメールスレッドにまとめられている。図5の例では、メールスレッドの一番上に表示されたメール(アカウントaaaからの返信)が選択されており、そのメール本文である「通常通りの出退勤予定です」というテキストが、右側の欄内に表示されている。このように、本実施形態によれば、一つの起点メールに対して、少なくとも一つの応答メールをスレッドにまとめて表示することができる。
Next, the operation of the mail
[第2の実施形態]
以上のとおり、本発明の具体的な実施形態を一つ説明したが、上述した実施形態は例示であって、本発明を限定するものではない。例えば、上述の第1の実施形態においては、一つの起点メールに対応する少なくとも一つの応答メールデータを取得し、メールスレッドを生成する形態を例示したが、応答メールデータに応答するメールデータを取得する形態でもよい。以下、応答メールデータに対してさらに対応する応答メールデータを取得してメールスレッドを生成する、この発明の第2の実施形態にかかるメールスレッド抽出装置について、第1の実施形態と異なる構成について説明する。[Second Embodiment]
As described above, one specific embodiment of the present invention has been described, but the above-described embodiment is an example and does not limit the present invention. For example, in the first embodiment described above, at least one response mail data corresponding to one origin mail is acquired to generate a mail thread, but the mail data corresponding to the response mail data is acquired. It may be in the form of Hereinafter, a configuration different from that of the first embodiment will be described with respect to the mail thread extraction device according to the second embodiment of the present invention, which further acquires the response mail data corresponding to the response mail data and generates a mail thread. do.
図10は、本発明の第2の実施形態にかかるメールスレッド抽出システム200の概略構成を示すブロック図である。終端判定部17は、メールデータ格納部12から取得した応答メールデータが、指定された検索期間内であるか否かを判定し、応答メールデータが検索期間内である場合は、起点メールデータ取得部13に対し、応答メールデータを送る。起点メールデータ取得部13は、受け取った応答メールデータを応答候補データ生成部14に入力し、応答候補データ生成部14および応答メールデータ取得部15において、対応する応答メールデータを抽出する処理を行う。この処理は、応答メールデータが、指定された検索期間内のメールである限りにおいて行われる。
FIG. 10 is a block diagram showing a schematic configuration of the mail
メールスレッド格納部18には、起点メールデータおよび応答メールデータが格納される。終端判定部17で応答メールデータが検索期間外であると判定された場合、終端判定部17はメールスレッド生成部16に終了指示を送る。終了指示を受けたメールスレッド生成部16は、メールスレッド格納部18に格納されている起点メールデータおよび応答メールデータを参照し、メールスレッドを生成する。なお、終端判定部17で検索期間外と判定された応答メールデータについては、メールスレッドには反映させず、既に格納されている起点メールデータおよび応答メールデータを用いてメールスレッドを生成する。
The origin mail data and the response mail data are stored in the mail
図11に、本発明の第2の実施形態にかかるメールスレッド抽出方法のフローチャートを示す。まず、検索期間および起点メールが指定されるのを待つ(S201)。例えば図12に示すようなユーザインタフェースを用いてユーザから起点メールおよび検索期間が指定される。指定された検索期間内の起点メールデータをメールデータ格納部12から入力メールデータとして取得する(S202)。取得した入力メールデータを応答候補データ生成部14の学習済みモデル14aに入力し、応答候補データを生成する(S203)。そして、応答メールデータ取得部15において、応答候補データに類似する応答メールデータをメールデータ格納部12から取得する(S204)。メールデータ格納部12から取得した応答メールデータが、指定された検索期間内のメールデータか否かを判定する(S205)。応答メールデータが、指定された検索期間内のメールデータの場合、入力メールデータおよび応答メールデータを組み合わせて、メールスレッドを生成し(S206)、メールスレッド格納部18に格納する(S207)。そして、応答メールデータを次の入力メールデータとして、起点メールデータ取得部13に送付し、S202からの処理を繰り返す。一方、S205の判定において、メールデータ格納部12から取得した応答メールデータが指定した検索期間外であると判定された場合、メールスレッド格納部18に既に格納されているメールスレッドを出力する(S208)。例えば図13に示すような形で起点メールに対する応答メールデータがメールスレッドとしてまとまって出力(表示)される。
FIG. 11 shows a flowchart of the mail thread extraction method according to the second embodiment of the present invention. First, it waits for the search period and the starting mail to be specified (S201). For example, the starting mail and the search period are specified by the user using the user interface as shown in FIG. The starting mail data within the designated search period is acquired from the mail
[第3の実施形態]
上述の実施形態において、応答候補データ生成部14によって生成された応答候補データとメールデータ格納部12に格納されたメールデータとの類似度の判断は、応答候補データおよびメールデータのベクトルの内積を用いる形態を例示したが、応答候補データの中で類似度の高いものを、さらにニューラルネットワークを用いて学習させた学習済みモデルを用いて複数抽出する形態でもよい。以下、この発明の第3の実施の形態に係るメールスレッド抽出システムについて、上述の実施形態と異なる構成について説明する。[Third Embodiment]
In the above-described embodiment, the degree of similarity between the response candidate data generated by the response candidate
図14に、応答候補データの中で類似度の高いものを複数抽出するための類似関係学習モデルを示す。類似関係学習モデルは、応答候補データであるAnswer1からAnswerNについて、類似の高いものを抽出するための学習モデルである。例えば、分類モデルにより応答候補データとしてAnswer1が抽出された場合に、類似関係学習モデルを用いてAnswer1に類似する応答候補データを抽出することが可能となる。この類似関係学習モデルで学習された学習済モデルを応答候補データ生成部14に用いて複数の応答候補データを生成することで、応答メールデータ取得部15において、漏れのない応答候補データの取得が可能となる。なお、類似関係学習モデルの学習方法として、類似する応答候補データを教師データとして学習を行う教師あり学習や、教師データを用いず応答候補データのみで学習を行う教師なし学習が適用できるが、学習の方法は本発明を限定するものではない。
FIG. 14 shows a similarity relationship learning model for extracting a plurality of response candidate data having a high degree of similarity. The similarity relationship learning model is a learning model for extracting highly similar data from
以上のとおり、本発明の具体的な実施形態を一つ説明したが、上述した実施形態は例示であって、本発明を限定するものではない。例えば、上記の実施形態では、教師あり学習による学習済みモデルの生成を例示したが、教師なし学習によって学習済みモデルを生成するようにしても良い。その場合は、ラベル付与部24は省略される。
As described above, one specific embodiment of the present invention has been described, but the above-described embodiment is an example and does not limit the present invention. For example, in the above embodiment, the generation of the trained model by supervised learning is illustrated, but the trained model may be generated by unsupervised learning. In that case, the
また、上記実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)、マイクロプロセッサ、プロセッサ等により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。 Further, a part or all of the processing of each functional block of the above embodiment may be realized by a program. Then, a part or all of the processing of each functional block of each of the above embodiments is performed by a central processing unit (CPU), a microprocessor, a processor, or the like in a computer. Further, the program for performing each process is stored in a storage device such as a hard disk or a ROM, and is read and executed in the ROM or the RAM.
また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらに、メール分類システム100を、ソフトウェアおよびハードウェアの混在処理により実現しても良い。
Further, each process of the above embodiment may be realized by hardware, or may be realized by software (including a case where it is realized together with an OS (operating system), middleware, or a predetermined library). Further, the
また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。 Further, the execution order of the processing methods in the above-described embodiment is not necessarily limited to the description of the above-described embodiment, and the execution order can be changed without departing from the gist of the invention. Further, in the processing method in the above embodiment, some steps may be executed in parallel with other steps as long as the gist of the invention is not deviated.
前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体の種類は任意である。また、上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。 A computer program that causes a computer to perform the above-mentioned method and a computer-readable recording medium on which the program is recorded are included in the scope of the present invention. Here, the type of computer-readable recording medium is arbitrary. Further, the computer program is not limited to the one recorded on the recording medium, and may be transmitted via a telecommunication line, a wireless or wired communication line, a network represented by the Internet, or the like.
なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。 The specific configuration of the present invention is not limited to the above-described embodiment, and various changes and modifications can be made without departing from the gist of the invention.
なお、本発明は、以下のように説明することもできる。 The present invention can also be described as follows.
本発明の第1の構成にかかるメールスレッド抽出装置は、
複数の電子メールデータを格納するメールデータ格納部と、
メールスレッドの起点となる起点メールデータを前記メールデータ格納部から取得する起点メールデータ取得部と、
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成する応答候補データ生成部と、
前記応答候補データ生成部によって生成された応答候補データに類似する応答メールデータを前記メールデータ格納部から取得する応答メールデータ取得部と、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成するメールスレッド抽出部とを備える。The mail thread extraction device according to the first configuration of the present invention is
A mail data storage unit that stores multiple e-mail data, and
A starting point mail data acquisition unit that acquires starting point mail data that is the starting point of a mail thread from the mail data storage unit, and a starting point mail data acquisition unit.
A response candidate data generation unit that generates response candidate data corresponding to the origin mail data using a learned model that has learned the correspondence between the mail data and the corresponding response mail data.
A response mail data acquisition unit that acquires response mail data similar to the response candidate data generated by the response candidate data generation unit from the mail data storage unit, and a response mail data acquisition unit.
It is provided with a mail thread extraction unit that generates a mail thread by combining the starting mail data and the response mail data.
この第1の構成では、メール文書データを格納するメール文書データ格納部を備え、メールスレッドの起点となる起点メール文書データをメール文書データ格納部から取得する。そして、メール文書データとそれに対応する応答メール文書データとの対応関係を学習した学習済みモデルを用いて、起点メール文書データに対応する応答候補データを生成する。さらに、応答候補データに類似する応答メール文書データをメール文書データ格納部から取得し、起点メール文書データと応答メール文書データとに基づいてメールスレッドを生成する。これにより、従来のように、所定の単語によるキーワード検索によって関係するメールを抽出しメールスレッドを生成する場合よりも、学習済みモデルを用いることによりメール本文の繋がりを基に対応するメールを網羅的に抽出することができ、メールのスレッド抽出を適切に行うことができる。 In this first configuration, a mail document data storage unit for storing mail document data is provided, and the starting mail document data serving as the starting point of the mail thread is acquired from the mail document data storage unit. Then, the response candidate data corresponding to the starting mail document data is generated by using the learned model in which the correspondence between the mail document data and the corresponding response mail document data is learned. Further, the response mail document data similar to the response candidate data is acquired from the mail document data storage unit, and a mail thread is generated based on the starting mail document data and the reply mail document data. As a result, compared to the conventional case where related emails are extracted by keyword search by a predetermined word and an email thread is generated, the corresponding emails are comprehensively handled based on the connection of the email body by using the learned model. It can be extracted to, and the thread extraction of mail can be performed appropriately.
本発明の第2の構成にかかるメールスレッド抽出装置は、第1の構成にかかるメールスレッド抽出装置において、前記応答メールデータ取得部により取得された応答メールデータが、前記メールスレッドの対象となる応答メールデータであるか否かを判定する終端判定部を備える。 In the mail thread extraction device according to the second configuration of the present invention, the response mail data acquired by the response mail data acquisition unit in the mail thread extraction device according to the first configuration is the target response of the mail thread. It is provided with a termination determination unit that determines whether or not the data is mail data.
この第2の構成によれば、応答メールデータがメールスレッドの対象となるか否かを判定する終端判定部を備え、応答メールデータがメールスレッドの対象メールであると判定された場合に、前記応答メールデータを起点メールデータ取得部に入力し、前記応答メールデータに応答するメールデータを取得することで所望のメールスレッドを漏れなく取得できる。 According to this second configuration, the terminal determination unit for determining whether or not the response mail data is the target of the mail thread is provided, and when it is determined that the response mail data is the target mail of the mail thread, the above-mentioned By inputting the response mail data into the starting mail data acquisition unit and acquiring the mail data that responds to the response mail data, the desired mail thread can be obtained without omission.
本発明に係るメールスレッド抽出方法は、
メールスレッドの起点となる起点メールデータを、複数の電子メールデータが格納されたメールデータ格納部から取得し、
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成し、
前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する。The mail thread extraction method according to the present invention
The starting point mail data, which is the starting point of the mail thread, is acquired from the mail data storage unit in which a plurality of e-mail data are stored.
Using the trained model that learned the correspondence between the mail data and the corresponding response mail data, the response candidate data corresponding to the starting mail data is generated.
Response mail data similar to the response candidate data is acquired from the mail data storage unit, and is obtained.
A mail thread is generated by combining the origin mail data and the response mail data.
このメールスレッド抽出方法によれば、メールスレッドの起点となる起点メールデータを、複数の電子メールデータが格納されたメールデータ格納部から取得し、メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成する。そして、前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する。これにより、従来のように、所定の単語によるキーワード検索によって関係するメールを抽出しメールスレッドを生成する場合よりも、学習済みモデルを用いることによりメール本文の繋がりを基に対応するメールを網羅的に抽出することができ、メールのスレッド抽出を適切に行うことができる。 According to this mail thread extraction method, the starting mail data that is the starting point of the mail thread is acquired from the mail data storage unit in which a plurality of e-mail data are stored, and the correspondence between the mail data and the corresponding response mail data. Response candidate data corresponding to the origin mail data is generated by using the trained model trained in. Then, the response mail data similar to the response candidate data is acquired from the mail data storage unit, and the starting mail data and the response mail data are combined to generate a mail thread. As a result, compared to the conventional case where related emails are extracted by keyword search by a predetermined word and an email thread is generated, the corresponding emails are comprehensively handled based on the connection of the email body by using the learned model. It can be extracted to, and the thread extraction of mail can be performed appropriately.
本発明にかかるプログラムは、
メールスレッドの起点となる起点メールデータを、複数の電子メールデータが格納されたメールデータ格納部から取得し、
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成し、
前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する処理を、コンピュータに実行させるためのプログラムである。The program according to the present invention is
The starting point mail data, which is the starting point of the mail thread, is acquired from the mail data storage unit in which a plurality of e-mail data are stored.
Using the trained model that learned the correspondence between the mail data and the corresponding response mail data, the response candidate data corresponding to the starting mail data is generated.
Response mail data similar to the response candidate data is acquired from the mail data storage unit, and is obtained.
This is a program for causing a computer to execute a process of generating a mail thread by combining the starting mail data and the response mail data.
このプログラムによって動作するコンピュータは、メールスレッドの起点となる起点メールデータを、複数の電子メールデータが格納されたメールデータ格納部から取得し、メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成する。そして、前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する。これにより、従来のように、所定の単語によるキーワード検索によって関係するメールを抽出しメールスレッドを生成する場合よりも、学習済みモデルを用いることによりメール本文の繋がりを基に対応するメールを網羅的に抽出することができ、メールのスレッド抽出を適切に行うことができる。 The computer operated by this program acquires the starting point mail data, which is the starting point of the mail thread, from the mail data storage unit in which a plurality of e-mail data are stored, and determines the correspondence between the mail data and the corresponding response mail data. Using the trained trained model, response candidate data corresponding to the origin mail data is generated. Then, the response mail data similar to the response candidate data is acquired from the mail data storage unit, and the starting mail data and the response mail data are combined to generate a mail thread. As a result, compared to the conventional case where related emails are extracted by keyword search by a predetermined word and an email thread is generated, the corresponding emails are comprehensively handled based on the connection of the email body by using the learned model. It can be extracted to, and the thread extraction of mail can be performed appropriately.
また、上記のプログラムを記録した記録媒体も、本発明の一つの態様である。 A recording medium on which the above program is recorded is also one aspect of the present invention.
1…抽出装置、2…学習器、11…メールデータ解析部1、12…メールデータ格納部、13…起点メールデータ取得部、14…応答候補データ生成部、15…応答メールデータ取得部、16…メールスレッド生成部、17…終端判定部、18…メールスレッド格納部、21…学習用データ解析部、22…データセット生成部、23…DNN(ディープニューラルネットワーク)、24…学習済モデル、100…メールスレッド抽出システム、200…メールスレッド抽出システム
1 ... Extractor, 2 ... Learning device, 11 ... Mail
Claims (5)
メールスレッドの起点となる起点メールデータを前記メールデータ格納部から取得する起点メールデータ取得部と、
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成する応答候補データ生成部と、
前記応答候補データ生成部によって生成された応答候補データに類似する応答メールデータを前記メールデータ格納部から取得する応答メールデータ取得部と、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成するメールスレッド生成部とを備える、メールスレッド抽出装置。A mail data storage unit that stores multiple e-mail data, and
A starting point mail data acquisition unit that acquires starting point mail data that is the starting point of a mail thread from the mail data storage unit, and a starting point mail data acquisition unit.
A response candidate data generation unit that generates response candidate data corresponding to the origin mail data using a learned model that has learned the correspondence between the mail data and the corresponding response mail data.
A response mail data acquisition unit that acquires response mail data similar to the response candidate data generated by the response candidate data generation unit from the mail data storage unit, and a response mail data acquisition unit.
A mail thread extraction device including a mail thread generation unit that generates a mail thread by combining the starting mail data and the response mail data.
前記終端判定部は、前記応答メールデータが前記メールスレッドの対象となる応答メールデータであると判定された場合に、前記応答メールデータを前記起点メールデータ取得部に入力する、請求項1に記載のメールスレッド抽出装置。A terminal determination unit for determining whether or not the response mail data acquired by the response mail data acquisition unit is the response mail data targeted by the mail thread is provided.
The terminal determination unit according to claim 1, wherein when the response mail data is determined to be the response mail data to be the target of the mail thread, the response mail data is input to the starting mail data acquisition unit. Mail thread extractor.
メールスレッドの起点となる起点メールデータを、複数の電子メールデータが格納されたメールデータ格納部から取得し、
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成し、
前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する、メールスレッド抽出方法。A method of extracting mail threads that is executed by a computer.
The starting point mail data, which is the starting point of the mail thread, is acquired from the mail data storage unit in which a plurality of e-mail data are stored.
Using the trained model that learned the correspondence between the mail data and the corresponding response mail data, the response candidate data corresponding to the starting mail data is generated.
Response mail data similar to the response candidate data is acquired from the mail data storage unit, and is obtained.
A mail thread extraction method for generating a mail thread by combining the starting mail data and the response mail data.
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成し、
前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する処理を、コンピュータに実行させるためのプログラム。The starting point mail data, which is the starting point of the mail thread, is acquired from the mail data storage unit in which a plurality of e-mail data are stored.
Using the trained model that learned the correspondence between the mail data and the corresponding response mail data, the response candidate data corresponding to the starting mail data is generated.
Response mail data similar to the response candidate data is acquired from the mail data storage unit, and is obtained.
A program for causing a computer to execute a process of generating a mail thread by combining the starting mail data and the response mail data.
メールデータとそれに対応する応答メールデータとの対応関係を学習した学習済みモデルを用いて、前記起点メールデータに対応する応答候補データを生成し、
前記応答候補データに類似する応答メールデータを前記メールデータ格納部から取得し、
前記起点メールデータと前記応答メールデータとを組み合わせてメールスレッドを生成する処理を、コンピュータに実行させるためのプログラムを記録した記録媒体。The starting point mail data, which is the starting point of the mail thread, is acquired from the mail data storage unit in which a plurality of e-mail data are stored.
Using the trained model that learned the correspondence between the mail data and the corresponding response mail data, the response candidate data corresponding to the starting mail data is generated.
Response mail data similar to the response candidate data is acquired from the mail data storage unit, and is obtained.
A recording medium in which a program for causing a computer to execute a process of generating a mail thread by combining the starting mail data and the response mail data is recorded.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019031261 | 2019-02-25 | ||
JP2019031261 | 2019-02-25 | ||
PCT/JP2020/007065 WO2020175371A1 (en) | 2019-02-25 | 2020-02-21 | Email thread extraction device, email thread extraction method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6905237B2 true JP6905237B2 (en) | 2021-07-21 |
JPWO2020175371A1 JPWO2020175371A1 (en) | 2021-09-13 |
Family
ID=72239566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021502189A Active JP6905237B2 (en) | 2019-02-25 | 2020-02-21 | Mail thread extractor, mail thread extraction method, and computer program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6905237B2 (en) |
WO (1) | WO2020175371A1 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004159261A (en) * | 2002-11-08 | 2004-06-03 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for generating thread, and recording medium |
JP2011227850A (en) * | 2010-04-23 | 2011-11-10 | Kddi Corp | E-mail classification device, e-mail management server, e-mail classification method and e-mail classification program |
-
2020
- 2020-02-21 WO PCT/JP2020/007065 patent/WO2020175371A1/en active Application Filing
- 2020-02-21 JP JP2021502189A patent/JP6905237B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2020175371A1 (en) | 2020-09-03 |
JPWO2020175371A1 (en) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046133B (en) | Question and answer method, equipment, storage medium and device based on mapping knowledge base | |
JP6893233B2 (en) | Image-based data processing methods, devices, electronics, computer-readable storage media and computer programs | |
Zhang et al. | The gap of semantic parsing: A survey on automatic math word problem solvers | |
CN110781276A (en) | Text extraction method, device, equipment and storage medium | |
US20170132314A1 (en) | Identifying relevant topics for recommending a resource | |
US11328125B2 (en) | Method and server for text classification using multi-task learning | |
KR20160026892A (en) | Non-factoid question-and-answer system and method | |
CN110795913B (en) | Text encoding method, device, storage medium and terminal | |
CN111368096A (en) | Knowledge graph-based information analysis method, device, equipment and storage medium | |
CN110362664A (en) | A kind of pair of chat robots FAQ knowledge base storage and matched method and device | |
CN115168615A (en) | Knowledge graph big data processing method and system combining data visualization | |
CN109408175B (en) | Real-time interaction method and system in general high-performance deep learning calculation engine | |
CN113220854B (en) | Intelligent dialogue method and device for machine reading and understanding | |
WO2008062822A1 (en) | Text mining device, text mining method and text mining program | |
JP2011243147A (en) | Feature weight learning apparatus, n-best scoring apparatus, n-best re-ranking apparatus, and method and program therefor | |
KR102347031B1 (en) | Method and server for text classification using multi-task learning | |
CN110909174B (en) | Knowledge graph-based method for improving entity link in simple question answering | |
Kumar et al. | Comparison of various ml and dl models for emotion recognition using twitter | |
CN112199958A (en) | Concept word sequence generation method and device, computer equipment and storage medium | |
JP6905237B2 (en) | Mail thread extractor, mail thread extraction method, and computer program | |
CN110555143B (en) | Question automatic answering method and computer storage medium | |
CN116383354A (en) | Automatic visual question-answering method based on knowledge graph | |
CN113468311B (en) | Knowledge graph-based complex question and answer method, device and storage medium | |
KR102569381B1 (en) | System and Method for Machine Reading Comprehension to Table-centered Web Documents | |
JP7216627B2 (en) | INPUT SUPPORT METHOD, INPUT SUPPORT SYSTEM, AND PROGRAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210224 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210224 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210518 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6905237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |