JP2019061656A - 要約文自動生成方法、装置及び電子デバイス - Google Patents

要約文自動生成方法、装置及び電子デバイス Download PDF

Info

Publication number
JP2019061656A
JP2019061656A JP2018134689A JP2018134689A JP2019061656A JP 2019061656 A JP2019061656 A JP 2019061656A JP 2018134689 A JP2018134689 A JP 2018134689A JP 2018134689 A JP2018134689 A JP 2018134689A JP 2019061656 A JP2019061656 A JP 2019061656A
Authority
JP
Japan
Prior art keywords
feature
features
vector
syntactic
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018134689A
Other languages
English (en)
Other versions
JP6579239B2 (ja
Inventor
シャヌシャヌ ジアン
Jin Shanshan
シャヌシャヌ ジアン
トーン イーシュエン
Yixuan Tong
トーン イーシュエン
ヨンウェイ ジャン
Yongwei Yang
ヨンウェイ ジャン
ジアシ ジャン
Jiashi Jang
ジアシ ジャン
ドーン ビン
Dawn Bing
ドーン ビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2019061656A publication Critical patent/JP2019061656A/ja
Application granted granted Critical
Publication of JP6579239B2 publication Critical patent/JP6579239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、文字処理技術分野に属し、要約文自動生成方法、装置及び電子デバイスを提供する。
【解決手段】本発明の要約文自動生成方法は、処理の対象となるドキュメントの字句特徴を抽出し、ドキュメントの構文特徴を抽出し、ドキュメントの単語ベクトルを生成し、字句特徴のベクトル表示及び構文特徴のベクトル表示を形成し、単語ベクトルと、字句特徴のベクトル表示及び構文特徴のベクトル表示とを接続し、処理の対象となる情報を形成し、情報をエンコーダの入力として処理し、ドキュメントの要約文を生成するステップを含む。
【選択図】図1

Description

本発明は、文字処理技術分野に属し、要約文自動生成方法、装置及び電子デバイスに関する。
要約文自動生成は、単一のドキュメントまたは複数のドキュメントに基づいて、元の文書よりずっと短縮されながら、元の文書における重要な情報が保たれる要約文の作成を目標とする。ディープランニング技術の進化及び普及に伴って、トピックや言語モデルに基づく方法は、エンコーダ/デコーダアーキテクチャのドキュメント生成方法によって徐々に取って代わる。典型的なエンコーダ/デコーダアーキテクチャは、再帰型ニューラルネットワーク(Recurrent Neural Network,RNN)及びそれの変化体である超短期記憶(Long Short-Term Memory,LSTM)とゲート再帰ユニット(Gated Recurrent Unit,GRU)を有する。
従来、字句の特徴を導入し、単語ベクトルと字句特徴ベクトルを関連付けてエンコーダに入力することにより、エンティティ単語と概念単語の効果が強調されるエンコーダは提示される。
要約文の生成を評価する重要な基準の一つは可読性である。上記した従来技術は、多くの場合には名詞や名詞語であるキーワードに着目され、キーワードがあってもキーワード同士の関連付けがなく、文の可読性が確保されない問題がある。
本発明は、上記問題を鑑みて、要約文の可読性を改善可能な要約文生成方法、装置及び電子デバイスを提供することを目的とする。
上記の問題を解決するために、本発明は、まず、
処理の対象となるドキュメントの字句特徴を抽出し;
前記ドキュメントの構文特徴を抽出し;
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成し;
前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続し、処理の対象となる情報を形成し;
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成することを特徴とする要約文自動生成方法を提供する。
上記の要約文自動生成方法において、前記字句特徴は、品詞特徴、固有表現特徴、ターム頻度及び逆ドキュメント頻度の統計特徴を含む。
上記の要約文自動生成方法において、前記構文特徴は、依存構文依頼関係特徴、構文成分特徴を含む。
上記の要約文自動生成方法において、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成することは、
前記字句特徴と前記構文特徴における連続値特徴及び発散値特徴を求め;
ワン・ホットで前記発散値特徴を表示し;
前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示するステップを含む。
上記の要約文自動生成方法において、前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示することは、
前記連続値特徴を予め数が設定される円筒に割り当てて目標発散値特徴に変換し;
前記連続値特徴における目標連続値特徴を発散値特徴に変換するための円筒の番号をワン・ホットで表示するステップを含む。
上記の要約文自動生成方法において、前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続し、処理の対象となる情報を形成することは、
前記ドキュメントにおける単語毎に、各単語に対応する単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを首尾で接続して1つのベクトルとし、形成される複数のベクトルを前記処理の対象となる情報とするステップを含む。
また、本発明は、
処理の対象となるドキュメントの字句特徴を抽出する第1の抽出モジュールと、
前記ドキュメントの構文特徴を抽出する第2の抽出モジュールと、
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成する生成モジュールと、
前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成する接続モジュールと、
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成する処理モジュールと、を含むことを特徴とする要約文自動生成装置を提供する。
更に、本発明は、処理装置と、コンピュータプログラム指令を記憶する記憶装置とを備える電子デバイスにおいて、前記処理装置が前記コンピュータプログラム指令を実行することにより、
処理の対象となるドキュメントの字句特徴を抽出するステップと、
前記ドキュメントの構文特徴を抽出するステップと、
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成するステップと、
前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成するステップと、
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップと、が実行されることを特徴とする電子デバイスを提供する。
最後に、本発明は、コンピュータプログラムが記憶される読取可能な記憶媒体であって、前記コンピュータプログラムを実行することにより、処理装置が、
処理の対象となるドキュメントの字句特徴を抽出し;
前記ドキュメントの構文特徴を抽出し;
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成し;
前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成し;
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップを実行させられることを特徴とする記憶媒体を提供する。
本発明の実施例は、処理の対象となるドキュメントの字句特徴を抽出し;前記ドキュメントの構文特徴を抽出し;前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成し;前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成し;前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成する。本発明の実施例は処理の対象となるドキュメントの字句特徴をエンコーダの入力とすると共に、構文特徴で文を構成する要素間の接続関係をより適切に表すために、要約文の可読性が改善される。
本発明の実施例にかかる要約文自動生成方法を示すフロー図である。 本発明の実施例にかかる字句特徴の構成を示す図である。 本発明の実施例にかかる構文特徴を求めるプロセスを示す図である。 本発明の実施例にかかる構文特徴を求めるプロセスを示す図である。 本発明の実施例にかかるステップ103の実行を示す図である。 本発明の実施例にかかる要約文自動生成装置の構成を示す図である。 本発明の実施例にかかる生成モジュールの構成を示す図である。 本発明の実施例にかかる第2の処理サブモジュールの構成を示す図である。 本発明の実施例にかかる電子デバイスの構成を示す図である。 本発明の実施例にかかるシステムのハードウェア構成を示す。
以下、図面と実施例を参考し、本発明の実施形態を詳細に説明する。以下の実施例は本発明の限定にならず、本発明を説明するために用いる。
図1に示すように、本発明の実施例にかかる要約文自動生成方法は次のステップを備える。
ステップ101:処理の対象となるドキュメントの字句特徴を抽出する。
ここで、字句特徴は、品詞特徴、固有表現特徴、ターム頻度(Term Frequency、TF)及び逆ドキュメント頻度(Inverse Document Frequency、IDF)の統計特徴があるが、これらに限らない。実用において、キーワードとしてのエンティティ単語と概念単語の抽出は、上記複数の特徴特定値の組み合わせによって実現される。例えば、品詞特徴は名詞単語又は名詞フレーズである。固有表現特徴は人または組織若しくは場所。TF-IDF値は比較的に高い。
その中に、品詞特徴と固有表現特徴は発散値特徴であり、ターム頻度統計特徴と逆ドキュメント頻度統計特徴は連続値特徴である。図2は字句特徴の構成を示す図である。
具体的に、上記した連続値特徴は統計計算で求められる。また、分散値特徴は序列標識モデルで抽出される。例えば、隠れマルコフモデル(Hidden Markov Model,HMM)や、条件付確率場(Conditional Random Fields,CRFs)等がある。
ステップ102:前記ドキュメントの構文特徴を抽出する。
ここで、構文特徴は依存構文依頼関係特徴(dependent,DEP)、構文成分特徴(SC)があるが、これらに限らない。その中に、依存構文依頼関係特徴、構文成分特徴はともに分散値特徴である。これらの特徴により文構成情報を得ることが出来、文中の動詞及び述語の効果が強調される。
実用において、構文解析モデルを用いて構文特徴を求めることが出来る。例えば、前後文が文法に関係ない等。図3、図4は構文特徴を求めるプロセスを示す図である。図3に示す文の分析により、図4に示す構文特徴が得られる。
ステップ103:前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成する。
このステップにおいて、上記ステップから得られた連続値特徴及び発散値特徴を、図5に示すように、次の方式で処理する。
ステップ1031:ドキュメントの単語ベクトルを生成する。
ここで、単語ベクトルは自然言語処理中に言語アーキテクチャ群及び特徴学習の集合名称である。単語(単語及びフレーズ)は低次元実施ベクトルにマッピングされる。単語ベクトル(単語の分布式表示)の生成に、Word2vec又はGloVe等の方式を利用することが出来る。
ステップ1032:ワン・ホットで前記発散値特徴を表示する。
ワン・ホットで上記ステップで取得した発散値特徴を表示することは、取得された発散値特徴のベクトル表示のことである。
ステップ1033:前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示する。
ここで、上記ステップで取得した連続値特徴を目標発散値特徴に変換してワン・ホットで表示することが出来る。
具体的に、前記連続値特徴を予め数が設定される円筒に割り当てて目標発散値特徴に変換し、前記連続値特徴における目標連続値特徴を発散値特徴に変換するための円筒の番号をワン・ホットで表示する。その中に予め設定される数は経験で設定することが出来る。
上記プロセスにおいて、ステップの前後順序は限定されない。
ステップ104、前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続し、処理の対象となる情報を形成する。
ここで、ドキュメントにおける単語毎に、それぞれの特徴値のベクトル表示を取得し、各単語に対応する単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを首尾で接続して1つのベクトルとして形成する。接続順序は任意に設置することが出来る。このようにすると、標記の方式で複数のベクトルが形成される。接続して形成される複数のベクトルを処理の対象となる情報とする。
ステップ105、前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成する。
本発明の実施例によれば、ドキュメントの字句特徴と構文特徴を抽出し、処理するドキュメントの単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを接続して、処理の対象となる情報を形成し、その情報をエンコーダの入力として処理して、要約文を生成することが出来る。本発明の実施例において、文の要素間の接続関係を最も表すことが出来る構文特徴をエンコーダの入力とすることで、生成される要約文の可読性が改善される。
図6に示すように、本発明の実施例にかかる要約文自動生成装置1000は、
処理の対象となるドキュメントの字句特徴を抽出する第1の抽出モジュール501と、
前記ドキュメントの構文特徴を抽出する第2の抽出モジュール502と、
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成する生成モジュール503と、
前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成する接続モジュール504と、
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成する処理モジュール505と、を含む。
本発明の字句特徴は、品詞特徴、固有表現特徴、ターム頻度統計特徴、逆ドキュメント頻度統計特徴があるが、これらに限らない。また、構文特徴は、依存構文依頼関係特徴、構文成分特徴があるが、これらに限らない。
前記生成モジュール503は、図7に示すように、
ドキュメントの単語ベクトルを生成する第1の生成サブモジュール5031と、
前記字句特徴と前記構文特徴における連続値特徴と発散値特徴を求める第2の生成サブモジュール5032と、
ワン・ホットで前記発散値特徴を表示する第1の処理サブモジュール5033と、
前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示する第2の処理サブモジュール5034と、を備える。
前記第2の処理サブモジュール5034は、図8に示すように、
前記連続値特徴を予め数が設定される円筒に割り当てて目標発散値特徴に変換する割当ユニット50341と、
前記連続値特徴における目標連続値特徴を発散値特徴に変換するための円筒の番号をワン・ホットで表示する処理ユニット50342と、を備える。
前記接続モジュール504は、具体的に、ドキュメントにおける単語毎に、当該単語に対応する単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを首尾で接続して1つのベクトルとして形成して、形成された複数のベクトルを処理の対象となる情報とする。
本発明の実施例にかかる装置の動作原理は前記方法の実施例の記載に参照する。
本発明の実施例によれば、ドキュメントの字句特徴と構文特徴を抽出し、処理するドキュメントの単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを接続して、処理の対象となる情報を形成し、その情報をエンコーダの入力として処理して、要約文を生成することが出来る。本発明の実施例において、文の要素間の接続関係を最も表すことが出来る構文特徴をエンコーダの入力とすることで、生成される要約文の可読性が改善される。
また、図9に示すように、本発明は、処理装置801とコンピュータプログラム指令を記憶する記憶装置802を備える電子デバイスにおいて、前記処理装置801が前記コンピュータプログラム指令を実行することにより、
ドキュメントの字句特徴を抽出するステップと、
前記ドキュメントの構文特徴を抽出するステップと、
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成するステップと、
前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成するステップと、
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップと、が実行される電子デバイスを提供する。
更に、図9に示すように、上記の電子デバイスは、ネットワークインタフェース803と、入力装置804と、ハードディスク805と、表示装置806とを備える。
上記各インタフェースはバスアーキテクチャを介して装置に接続される。バスアーキテクチャは互いに接続される任意数のバスとブリッジを含む。具体的に、処理装置801が代表とする1つ又は複数の中央処理器(CPU)と記憶装置802が代表する1つまたは複数の記憶装置の各種回路が接続される。バスアーキテクチャより、例えば外付け機器、レギュレータ―及び電力管理回路などの種々の別の回路が接続される。バスアーキテクチャよりこれらの機器が通信可能に接続される。バスアーキテクチャは、データバス以外に、電源バス、制御バス及び状態信号バスを含む。これらは公知技術であり、詳細な説明を省略する。
ネットワークインタフェース803は、ネットワーク(例えば、インターネットやLANなど)に接続され、ネットワークから関連のデータを受け付け、ハードディスク805に記憶させるインタフェースである。
入力装置804はユーザより入力される各種指令を受け付け、処理装置801に送信して実行させる手段である。また、入力装置804はキーボードやクリック手段であり、例えば、マウス、トラックボール、タッチボードやタッチパネル等がある。
表示装置806は処理装置801より指令が実行された結果を表示する手段である。
記憶装置802はオペレティングシステムが実行するプログラムとデータ、及び処理装置801より計算された中間結果等のデータを記憶する記憶装置である。
本実施例にかかる記憶装置802は揮発性記憶手段又は非揮発性記憶手段、もしくは揮発性記憶手段と非揮発性記憶手段の両方である。その中の非揮発性記憶手段はROM、PROM、EPROM、EEPROM、フラッシュメモリである。揮発性記憶手段は、RAMであり、外付け高速バッファとする。しかし、本明細書に記載される装置及び方法に用いった記憶装置802はこれらの記憶手段に限定されず、他の適切な記憶装置でもよい。
一部の実施形態において、記憶装置802に実行モジュール又はデータ構成若しくはこれらのサブモジュールや拡張モジュールであるオペレティングシステム8021及びアプリケーションプログラム808が記憶される。
その中に、オペレティングシステム8021は、各種システムプログラム、例えばフレーム層、コア層、駆動層等を含み、各種操作業務及びハードウェアによる処理されるジョブを実現するためのものである。アプリケーションプログラム942は各種アプリケーションプログラム、例えばウェブブラウザ―等を含み、各種アプリケーション業務を実現するためのものである。本実施例にかかる方法を実行するプログラムはアプリケーションプログラム808に含む。
上記処理装置801は記憶装置802に記憶されるアプリケーションプログラム及びデータ具体的に、アプリケーションプログラム808に記憶されるプログラムまたは指令を読み出して実行する場合に、
ドキュメントの字句特徴を抽出するステップと、
前記ドキュメントの構文特徴を抽出するステップと、
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成するステップと、
前記単語ベクトル、前記字句特徴のベクトル表示と前記構文特徴のベクトル表示を接続して、処理の対象となる情報を形成するステップと、
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップと、が実行される。
上記本発明の実施例にかかる方法は処理装置801に適用され、または処理装置802によって実現される。処理装置801は集積回路基板であって、信号を処理する能力がある。上記方法の各ステップは処理装置801におけるハードウェアである集積論理回路又はソフトウェア形式の指令によって実現される。上記処理装置801は汎用処理器、DSP、ASIC、FPGA又はその他のPLD、ディスクリートまたはトランジスタ論理デバイス、ディスクリートハードウェア部品であり、本発明の実施例にかかる各方法、ステップ及び論理的モジュールを実現又は実行可能なものである。汎用処理器はマイクロプロセッサ又は任意の一般処理器などである。本発明の実施例にかかる方法の各ステップはハードウェアであるプロセッサより実行して実現され、またはプロセッサにお行けるハードウェアとソフトウェアの組み合わせによって実現される。ソフトウェアモジュールはRAM、フラッシュメモリ、ROM、PROM又はEPROM、レジスタ等従来の記憶媒体に記憶される。処理装置801はこのソフトウェアが記憶される記憶媒体を備える記憶装置802から情報を読出し、ハードウェアと組み合わせて上記のステップを実現する。
本実施例はハードウェア、ソフトウェア、ファームウェア、中間ウェア、マイクロコード、またはこれらの組み合わせによって実現される。処理ユニットにおいてハードウェアによる実現はASIC、DSP、DSPD、PLD、FPGA、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサの中の一つ又は複数、及び本明細書に記載されて前記機能を実現する他の電子部品又は組み合わせで実行される。
また、ソフトウェアによる実現は、プログラムに記述される機能的モジュール(例えばプログラム、関数等)により実行される。ソフトウェアプログラムはメモリに記憶されてプロセッサによって実行される。メモリはプロセッサ内部又は外部で実現できる。
その中に、字句特徴は、品詞特徴、固有表現特徴、ターム頻度統計特徴、逆ドキュメント頻度統計特徴がある。
また、構文特徴は、依存構文依頼関係特徴、構文成分特徴がある。
具体的に、処理装置801はコンピュータプログラムを読み込んで、
前記字句特徴と前記構文特徴における連続値特徴と発散値特徴を取得するステップと、
ワン・ホットで前記発散値特徴を表示するステップと、
前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示するステップと、を実行することが出来る。
また、具体的に、処理装置801はコンピュータプログラムを読み込んで、
前記連続値特徴を予め数が設定される円筒に割り当てて目標発散値特徴に変換するステップと、
前記連続値特徴における目標連続値特徴を発散値特徴に変換するための円筒の番号をワン・ホットで表示するステップと、を実行することができる。
更に具体的に、処理装置801はコンピュータプログラムを読み込んで、
ドキュメントにおける単語毎に、当該単語に対応する単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを首尾で接続して1つのベクトルとして形成して、形成された複数のベクトルを処理の対象となる情報とするステップを実行することができる。
最後に、本発明の実施例は、コンピュータ読取り可能な記憶媒体であって、処理装置に当該コンピュータ読取り可能な記憶媒体が読み込まれて実行されると、前記処理装置が、
ドキュメントの字句特徴を抽出するステップと、
前記ドキュメントの構文特徴を抽出するステップと、
前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成するステップと、
前記単語ベクトル、前記字句特徴のベクトル表示と前記構文特徴のベクトル表示を接続して、処理の対象となる情報を形成するステップと、
前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップと、が実行される記憶媒体を提供する。
その中に、字句特徴は、品詞特徴、固有表現特徴、ターム頻度統計特徴、逆ドキュメント頻度統計特徴がある。
また、構文特徴は、依存構文依頼関係特徴、構文成分特徴がある。
その中に、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成することは、
前記字句特徴と前記構文特徴における連続値特徴と発散値特徴を取得し、
ワン・ホットで前記発散値特徴を表示し、
前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示することを、含む。
また、その中に、前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示することは、
前記連続値特徴を予め数が設定される円筒に割り当てて目標発散値特徴に変換し、
前記連続値特徴における目標連続値特徴を発散値特徴に変換するための円筒の番号をワン・ホットで表示すること、を含む。
更に、その中に、前記単語ベクトル、前記字句特徴のベクトル表示と前記構文特徴のベクトル表示を接続して、処理の対象となる情報を形成することは、
ドキュメントにおける単語毎に、当該単語に対応する単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを首尾で接続して1つのベクトルとして形成して、形成された複数のベクトルを処理の対象となる情報とすることを含む。
図10に本発明の実施例にかかるシステムのハードウェア構成を示す。このシステムはPCシステムで構成される。入力及び出力は記憶装置1013に記憶され、機能的モジュールと中間結果はメインメモリであるRAM 1011に記憶され、機能的モジュールはCPU 1000によって実行される。データは入力ユニット1014を介してシステムに入力され、出力結果は表示装置1015に表示される。
本発明に開示された複数の実施例から分かるように、上記開示された方法及び装置は別の形態で実施することもできる。例えば、上記記載された装置は一例に過ぎず、前記ユニットの割り当ては、論理的な機能の割り当ての一例に過ぎず、実際に複数のモジュールまたはユニットを一つにするか、別のシステムに集約することが出来る。また、一部の機能が省略してもよく、又は実行しなくてもよい。なお、上記表示または開示された接続は、直接な接続若しくは通信可能な接続はインタフェースを介することが出来る。装置やユニット同士の間接的な接続または通信可能な接続は、電気的または機械的もしくは他の形態の接続でよい。
なお、本発明の実施例にかかる各機能的ユニットは、1つの処理ユニットに集約しても良く、物理的に単独でもよく、2つ以上で一つのユニットとして集約してもよい。
上記ソフトウェアによる機能的手段で実現する集約ユニットはコンピュータが読み取り可能な記憶媒体に記憶する。その記憶媒体に記憶されるソフトウェアの指令をコンピュータ(例えば、PC、サーバ、またはネットワーク装置等)を実行させることで、本発明の実施例にかかる方法に含むステップが実行される。記憶媒体は、USB、ハードディスク、ROM(Read Only Memory)、RAM(Random Access Memory)、CDまたはDVD等プログラミングコードを記憶可能な媒体である。
以上に本発明の好ましい実施形態を説明したが、本発明の主旨を脱逸しない限り、改良又は変更することが出来る。如何なる改良又は変更も本発明の範疇に属す。

Claims (10)

  1. 処理の対象となるドキュメントの字句特徴を抽出し;
    前記ドキュメントの構文特徴を抽出し;
    前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成し;
    前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続し、処理の対象となる情報を形成し;及び
    前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップを含むことを特徴とする要約文自動生成方法。
  2. 前記字句特徴は、品詞特徴、固有表現特徴、ターム頻度及び逆ドキュメント頻度の統計特徴を含むことを特徴とする請求項1に記載の要約文自動生成方法。
  3. 前記構文特徴は、依存構文依頼関係特徴及び構文成分特徴を含むことを特徴とする請求項1に記載の要約文自動生成方法。
  4. 前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成することは、
    前記字句特徴と前記構文特徴における連続値特徴及び発散値特徴を求め;
    ワン・ホットで前記発散値特徴を表示し;及び
    前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示するステップを含むことを特徴とする請求項1に記載の要約文自動生成方法。
  5. 前記連続値特徴を目標発散値特徴に変換してワン・ホットで表示することは、
    前記連続値特徴を予め数が設定される円筒に割り当てて目標発散値特徴に変換し;及び
    前記連続値特徴における目標連続値特徴を発散値特徴に変換するための円筒の番号をワン・ホットで表示するステップを含むことを特徴とする請求項4に記載の要約文自動生成方法。
  6. 前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続し、処理の対象となる情報を形成することは、
    前記ドキュメントにおける単語毎に、各単語に対応する単語ベクトルと、字句特徴のベクトル表示と、構文特徴ベクトル表示とを首尾で接続して1つのベクトルとし、形成される複数のベクトルを前記処理の対象となる情報とするステップを含むことを特徴とする請求項1に記載の要約文自動生成方法。
  7. 処理の対象となるドキュメントの字句特徴を抽出する第1の抽出モジュールと、
    前記ドキュメントの構文特徴を抽出する第2の抽出モジュールと、
    前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成する生成モジュールと、
    前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成する接続モジュールと、
    前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成する処理モジュールと、を含むことを特徴とする要約文自動生成装置。
  8. 処理装置と、コンピュータプログラム指令を記憶する記憶装置とを備える電子デバイスであって、
    前記処理装置が前記コンピュータプログラム指令を実行することにより、
    処理の対象となるドキュメントの字句特徴を抽出し;
    前記ドキュメントの構文特徴を抽出し;
    前記ドキュメントの単語ベクトルを生成し、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示を形成し;
    前記単語ベクトルと、前記字句特徴のベクトル表示及び前記構文特徴のベクトル表示とを接続して、処理の対象となる情報を形成し;及び
    前記情報をエンコーダの入力として処理し、前記ドキュメントの要約文を生成するステップが実行されることを特徴とする電子デバイス。
  9. コンピュータに、請求項1〜6の任意の1項に記載の要約文自動生成方法を実行させるためのプログラム。
  10. 請求項9に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2018134689A 2017-09-27 2018-07-18 要約文自動生成方法、装置及び電子デバイス Active JP6579239B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710892106.0 2017-09-27
CN201710892106.0A CN109558583A (zh) 2017-09-27 2017-09-27 一种自动生成文摘的方法、装置及设备

Publications (2)

Publication Number Publication Date
JP2019061656A true JP2019061656A (ja) 2019-04-18
JP6579239B2 JP6579239B2 (ja) 2019-09-25

Family

ID=65864224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018134689A Active JP6579239B2 (ja) 2017-09-27 2018-07-18 要約文自動生成方法、装置及び電子デバイス

Country Status (2)

Country Link
JP (1) JP6579239B2 (ja)
CN (1) CN109558583A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560456A (zh) * 2020-11-03 2021-03-26 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
WO2023068691A1 (en) * 2021-10-18 2023-04-27 Samsung Electronics Co., Ltd. Method of natural language processing by performing semantic analysis using syntactic information, and an apparatus for the same

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457483B (zh) * 2019-06-21 2022-02-18 浙江大学 一种基于神经主题模型的长文本生成方法
CN111178053B (zh) * 2019-12-30 2023-07-28 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111209751B (zh) * 2020-02-14 2023-07-28 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN112541348A (zh) * 2020-12-10 2021-03-23 平安科技(深圳)有限公司 长文本生成方法、装置、设备及存储介质
CN112765987A (zh) * 2021-01-26 2021-05-07 武汉大学 一种基于递归条件随机场解码器的事件识别方法及系统
CN113515627B (zh) * 2021-05-19 2023-07-25 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249935A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体
JP2003108571A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2015088064A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
WO2017161320A1 (en) * 2016-03-18 2017-09-21 Google Inc. Generating dependency parses of text segments using neural networks

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645B (zh) * 2014-08-27 2017-06-16 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104536950B (zh) * 2014-12-11 2018-04-20 北京百度网讯科技有限公司 生成文本摘要的方法及装置
CN106383817B (zh) * 2016-09-29 2019-07-02 北京理工大学 利用分布式语义信息的论文标题生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249935A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体
JP2003108571A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2015088064A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
WO2017161320A1 (en) * 2016-03-18 2017-09-21 Google Inc. Generating dependency parses of text segments using neural networks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560456A (zh) * 2020-11-03 2021-03-26 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
CN112560456B (zh) * 2020-11-03 2024-04-09 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
WO2023068691A1 (en) * 2021-10-18 2023-04-27 Samsung Electronics Co., Ltd. Method of natural language processing by performing semantic analysis using syntactic information, and an apparatus for the same

Also Published As

Publication number Publication date
CN109558583A (zh) 2019-04-02
JP6579239B2 (ja) 2019-09-25

Similar Documents

Publication Publication Date Title
JP6579239B2 (ja) 要約文自動生成方法、装置及び電子デバイス
TWI684881B (zh) 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
US8886517B2 (en) Trust scoring for language translation systems
US9805718B2 (en) Clarifying natural language input using targeted questions
US20070299824A1 (en) Hybrid approach for query recommendation in conversation systems
JP2018533786A (ja) 世界共通翻訳
KR20210061141A (ko) 자연어 처리 방법 및 장치
JP7178441B2 (ja) 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
JP6693582B2 (ja) 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
JP7343566B2 (ja) 言語モデルを利用したデータ生成方法、コンピュータ装置、およびコンピュータプログラム
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
US20230214593A1 (en) A computer- implemented method of structuring content for training an artificial intelligence model
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
JP6622236B2 (ja) 発想支援装置及び発想支援方法
TWI470620B (zh) 文字到語音轉換之方法和系統
KR20210056114A (ko) 자동 질의응답 장치
Lytvyn et al. A method of construction of automated basic ontology
El-Assady et al. lingvis. io-A linguistic visual analytics framework
US20220165257A1 (en) Neural sentence generator for virtual assistants
Pandey et al. Error analysis of sahit-a statistical sanskrit-hindi translator
CN114490984A (zh) 基于关键词指导的问答知识抽取方法、装置、设备及介质
KR102284903B1 (ko) 입력 시퀀스 생성 방법 및 장치
Aunimo Enhancing reliability and user experience in conversational agents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190812

R151 Written notification of patent or utility model registration

Ref document number: 6579239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151