JP2019139772A - 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 - Google Patents

文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2019139772A
JP2019139772A JP2019019459A JP2019019459A JP2019139772A JP 2019139772 A JP2019139772 A JP 2019139772A JP 2019019459 A JP2019019459 A JP 2019019459A JP 2019019459 A JP2019019459 A JP 2019019459A JP 2019139772 A JP2019139772 A JP 2019139772A
Authority
JP
Japan
Prior art keywords
collocation
document
attention
processed
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019019459A
Other languages
English (en)
Other versions
JP6693582B2 (ja
Inventor
チヌ ティエヌイ
tian yi Qin
チヌ ティエヌイ
ジャン ヨンウエイ
yong wei Zhang
ジャン ヨンウエイ
ドォン ビヌ
Bin Dong
ドォン ビヌ
ジアン シャヌシャヌ
shan shan Jiang
ジアン シャヌシャヌ
ジャン ジィアシ
jia shi Zhang
ジャン ジィアシ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2019139772A publication Critical patent/JP2019139772A/ja
Application granted granted Critical
Publication of JP6693582B2 publication Critical patent/JP6693582B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体を提供する。【解決手段】少なくとも一組の第一原句及びそれに対応する要約を含むトレーニングデータを利用して注意行列を持つニューラルネットワークモデルを学習し、処理すべき文書の各第二原句をニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得し、処理すべき文書の各第二原句とそれに対応する要約との間の注意行列に基づいて連語注意力表を作成して、処理すべき文書から最初の連語を選択して、連語注意力表によって各最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得し、各連語候補集合中の連語を文に組み合わせて、処理すべき文書の要約を生成する。【選択図】図1

Description

本発明はデータ処理技術分野に関し、特に文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体に関する。
インターネット技術の急速な発展につれ、ユーザのインターネットでニュース情報を見る傾向がますます多くなってきており、現在、携帯電話などの移動端末でインターネットに提供されているニュース情報を閲覧することが一般的である。しかし、科学技術の急速な発展につれ、インターネットで毎日更新されるニュース量が非常に膨大であり、カテゴリが多様で、形式変化が多いので、人々は限られた時間内にこんなに多いニュース内容を閲読、その要点情報を知ることは非常に困難である。かつ、内容量が大きいニュースに対して、携帯電話などの移動端末のディスプレイが限られているため、携帯電話のディスプレイにニュースの内容を全部表示できない場合が多く、ユーザにとって読むのが不便であり、かつユーザは多くのニュース内容を閲読した後、前の部分のニュース内容の核心内容を忘れがちであり、ユーザのニュースを見るユーザ体験が悪い。
ニュースにニュース情報を閲読しやすく、ニュースの核心内容を知りやすくさせるために、従来のニュース表示方法では主にページにユース文書に対応する見出しと対応する一文要約もしくは100文字以下の短い要約を表示して、ユーザがサーチしたニュース情報に興味を感じた後、対応するニュースの見出しをクリックしてニュースを詳細に読むことができる。
従来の文書要約を生成する方法は主に二つがあり、第一は抽出式要約生成方式であり、当該方法により生成した要約は冗長で、かつ利用される特徴が少なく、出力された要約の精度が低いため、文章の意味を正確に代表できない。第二は生成式要約生成方式であり、当該方法により出力された要約の精度が高いが、生成された要約は人々の閲読習慣に適合せず、可読性が比較的に悪い。
本発明が解決しようとする技術的な問題は、文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体を提供することであり、生成された文書要約はコンパクト、正確、可読性が良く、かつ、文書要約に冗長な情報が存在しない。
上記の技術課題を解決するために、本発明の実施例の1つの態様では、トレーニングデータにより学習を行うことで注意力(attention)行列を持つニューラルネットワークモデルを取得するステップであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、ステップと、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得するステップであって、前記第二原句は処理すべき文書における純テキスト文である、ステップと、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、ステップと、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を含む文書要約の生成方法を提供する。
さらに、前記トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するステップの前に、前記文書要約の生成方法は、さらに前記トレーニングデータを取得するステップを含み、前記トレーニングデータを取得するステップは、前記トレーニング文書に対して単語分割処理とノイズ除去処理を行って、前記トレーニング文書の純テキストを取得することと、前記トレーニング文書の各要約文に対して、前記純テキストにおける各文を走査し、前記純テキストにおける文が一要約文のすべての非ストップワードを含む場合、前記純テキストにおける当該文及び対応する要約文を一組の第一原句及び対応する要約とすることと、を含む。
さらに、前記処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力するステップの前に、前記文書要約の生成方法はさらに、前記処理すべき文書に対して単語分割処理とノイズ除去処理を行って、前記処理すべき文書の純テキストを取得して、前記処理すべき文書の純テキストから前記第二原句を抽出すること、を含む。
さらに、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップは、各前記第二原句における各単語と対応する要約における各単語との間の注意力行列を抽出し、各単語対の注意力値に基づいて単語注意力表を構築することであって、前記単語注意力表には前記処理すべき文書における各第二原句の各単語と対応する要約における各単語との間の注意力値が含まれる、ことと、前記単語注意力表における単語を連語にマージし、各単語対の注意力値に基づいて各連語対の間の注意力値を更新して連語注意力表を取得することであって、前記連語注意力表には前記処理すべき文書における各第二原句の各連語と対応する要約における各連語との間の注意力値が含まれる、ことと、を含む。
さらに、前記単語注意力表における単語を連語にマージするステップは、各前記第二原句に対して構文解析を行い、構文連語タグに基づいて前記第二原句における単語を連語にマージすること、を含む。
さらに、各連語対の間の注意力値は当該対の連語に含まれる複数対の単語間の注意力値の平均値である。
さらに、前記処理すべき文書から最初の連語を選択するステップは、前記処理すべき文書の純テキストの見出しまたは第一文から名前付きエンティティを前記最初の連語として選択すること、を含む。
さらに、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得するステップは、(a)各前記最初の連語に対して連語候補集合を構築するステップと、(b)前記連語注意力表から前記連語候補集合における各連語と最高注意力値を有する連語を選択して、前記最高注意力値が所定閾値よりも大きい場合、前記最高注意力値に対応する連語を前記連語候補集合に追加するステップと、(c)前記連語候補集合の長さが目標長さに達したか否かを判定し、前記連語候補集合の長さが目標長さに達した場合、ステップ(b)を実行せず、前記連語候補集合の長さが目標長さに達していない場合、続けてステップ(b)を実行するステップと、を含む。
さらに、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップは、各前記連語候補集合における連語を可読性の有する文に組み合わせ、かつ各前記連語候補集合のオフセット量を計算して、前記連語候補集合のオフセット量の順に前記連語候補集合における文を前記処理すべき文書の要約として出力すること、を含み、前記連語候補集合のオフセット量は、前記連語候補集合におけるすべての単語の平均オフセット量である。
本発明の実施例の他の態様では、トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するトレーニングモジュールであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、トレーニングモジュールと、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得する入力モジュールであって、前記第二原句は処理すべき文書における純テキスト文である、入力モジュールと、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成する処理モジュールであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、処理モジュールと、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成する生成モジュールと、を含む文書要約の生成装置を提供する。
本発明の実施例の他の態様では、プロセッサーと、コンピュータプログラムコマンドを記憶するメモリと、を含み、前記コンピュータプログラムコマンドが前記プロセッサーにより実行される時に、前記プロセッサーに、トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するステップであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、ステップと、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得するステップであって、前記第二原句は処理すべき文書における純テキスト文である、ステップと、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、ステップと、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を実行させる文書要約を生成する電子機器を提供する。
さらに、本発明の実施例の他の態様では、コンピュータプログラムを記憶するコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムがプロセッサーにより実行される時、前記プロセッサーに、トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するステップであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、ステップと、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得するステップであって、前記第二原句は処理すべき文書における純テキスト文である、ステップと、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、ステップと、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を実行させるコンピュータ読み取り可能な記録媒体を提供する。
本発明の実施例は以下の効果がある。上記方案では、複数組の第一元フレーズ及びそれに対応する要約を含むトレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。本発明の技術方案は処理すべき文書の重要連語によって文を構成して、そして処理すべき文書の要約を形成し、豊富な特徴を利用して要約を生成したので、文書の意味を精確に代表でき、かつ生成された要約の論理性がよく、人々の閲読習慣に合致して、可読性がよい。
本発明の実施例に係る文書要約の生成方法のフローチャートである。 本発明の実施例に係るトレーニングデータを獲得するフローチャートである。 本発明の実施例に係るトレーニングデータを獲得する具体的なフローチャートである。 本発明の実施例に係る連語注意力表を構築するフローチャートである。 本発明の実施例に係る連語候補集合を拡張するフローチャートである。 本発明の実施例に係る文書要約の生成装置の構造図である。 本発明の実施例に係る文書要約を生成する電子機器の構造図である。 本発明の具体的な実施例に係る文書要約の生成方法のフローチャートである。 本発明の実施例seq2seqモデルの模式図である。 本発明の実施例に係る連語候補集合を拡張する模式図である。
本発明の実施例が解決しようとする技術課題、技術方案および優れた点をより明確させるために、付図および具体的な実施例を組み合わせて詳細な説明を行う。
本発明の実施例は、文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体を提供して、生成された文書要約はコンパクト、正確、可読性が良く、かつ、文書要約に冗長な情報が存在しない。
<実施例1>
本発明の実施例に係る文書要約の生成方法は、図1に示すように、以下のステップを含む。
ステップ101:トレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得て、前記トレーニングデータは少なくとも一組の第一元フレーズ及びそれに対応する要約を含み、前記第一原句はトレーニング文書中の純テキスト文である。
具体的には、ニューラルネットワークモデルがseq2seqモデルであることができる。
ステップ102:処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記第二原句は処理すべき文書中の純テキスト文である。
ステップ103:前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記連語注意力表には前記処理すべき文書中の各第二原句の連語と対応する要約中の連語との間の注意力値が含まれる。
ステップ104:前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。
本実施例では、複数組の第一元フレーズ及びそれに対応する要約を含むトレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。本発明の技術方案は処理すべき文書の重要連語によって文を構成して、そして処理すべき文書の要約を形成し、豊富な特徴を利用して要約を生成したので、文書の意味を精確に代表でき、かつ生成された要約の論理性がよく、人々の閲読習慣に合致して、可読性がよい。
一例として、図2に示すように、前記ステップ101は以下を含む。
ステップ100:前記トレーニングデータを取得する。
具体的には、図3に示すように、前記ステップ100は以下を含む。
ステップ1001:前記トレーニング文書に対して単語分割処理とノイズ除去処理を行って、前記トレーニング文書の純テキストを得る。
ここで、ノイズ除去処理はトレーニング文書中のノイズを除去することであり、ノイズはURL(Uniform Resource Locator、統一資源位置指定子)、電話番号及びその他のソーシャルネットワークアカウントを含むが、それらに限られない。
ステップ1002:前記トレーニング文書の各要約文に対して、前記純テキスト中の各文を走査して、前記純テキスト中の一つの文がある要約文のすべての非ストップワードを含んだとき、前記純テキスト中の当該文及び対応する要約文を一組の第一原句及び対応する要約を構成する。
一例として、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力するステップの前に、前記方法はさらに以下を含む。
前記処理すべき文書に対して単語分割処理とノイズ除去処理を行って、前記処理すべき文書の純テキストを得て、前記処理すべき文書の純テキストから前記第二原句を抽出する。
一例として、図4に示すように、前記ステップ103は以下を含む。
ステップ1031:各前記第二原句中の各単語と対応する要約中の各単語との間の注意力行列を抽出して、各単語対の注意力値に基づいて単語注意力表を構築し、前記単語注意力表には前記処理すべき文書中の各第二原句の各単語と対応する要約中の各単語との間の注意力値が含まれる。
ステップ1032:前記単語注意力表中の単語を連語にマージし、かつ各単語対の注意力値によって各連語対の間の注意力値を更新して連語注意力表を得て、前記連語注意力表には前記処理すべき文書中の各第二原句の各連語と対応する要約中の各連語との間の注意力値が含まれる。
ここで、前記単語注意力表中の単語を連語にマージすることは、各前記第二原句に構文解析を行い、構文連語タグに基づいて前記第二原句中の単語を連語にマージする。具体的には、各連語対の間の注意力値は、当該対の連語に含まれる複数対の単語間の注意力値の平均値であり、もちろん、その他の計算規則を用いて連語に含まれる複数対の単語間の注意力値から、各連語対の間の注意力値を計算することも可能である。
一例として、前記処理すべき文書から最初の連語を選択する前記ことは以下を含む。
前記処理すべき文書の純テキストの見出しまたは第一文から名前付きエンティティを選択して前記最初の連語にする。
一例として、図5に示すように、前記ステップ104は以下を含む。
ステップ1041:各前記最初の連語に対して連語候補集合を構築する。
ステップ1042:前記連語注意力表から前記連語候補集合中の各連語と最高注意力値を有する連語を選択して、前記最高注意力値が所定閾値より大きい時に、前記最高注意力値に対応する連語を前記連語候補集合に追加する。
ステップ1043:前記連語候補集合の長さが目標長さに達したかどうかを判定し、前記連語候補集合の長さが目標長さに達したときに、ステップ1042を実行せずに連語候補集合を出力し、前記連語候補集合の長さが目標長さに達していないときに、続けてステップ1042を実行する。
具体的には、各前記連語候補集合中の連語を文に組み合わせて前記処理すべき文書の要約を生成する際に、各前記連語候補集合中の連語を可読性を有する文に組み合わせ、かつ各前記連語候補集合のオフセット量を計算して、前記連語候補集合のオフセット量によって前記処理すべき文書の要約として前記連語候補集合が集まった文を出力し、その内、前記連語候補集合のオフセット量が前記連語候補集合中のすべての単語の平均オフセット量である。たとえば、オフセット量の低い順から、各前記連語候補集合が集まった文を順次に出力する。
<実施例2>
本発明の実施例はさらに文書要約装置を提供して、図6に示すように、トレーニングモジュール21、入力モジュール22、処理モジュール23及び生成モジュール24を含む。
トレーニングモジュール21は、トレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得て、前記トレーニングデータは少なくとも一組の第一元フレーズ及びそれに対応する要約を含み、前記第一原句はトレーニング文書中の純テキスト文である。
入力モジュール22は、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記第二原句は処理すべき文書中の純テキスト文である。
処理モジュール23は、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記連語注意力表には前記処理すべき文書中の各第二原句の連語と対応する要約中の連語との間の注意力値が含まれる。
生成モジュール24は、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。
本実施例では、複数組の第一元フレーズ及びそれに対応する要約を含むトレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。本発明の技術方案は処理すべき文書の重要連語によって文を構成して、そして処理すべき文書の要約を形成し、豊富な特徴を利用して要約を生成したので、文書の意味を精確に代表でき、かつ生成された要約の論理性がよく、人々の閲読習慣に合致して、可読性がよい。
一例として、文書要約の生成装置はさらに、前記トレーニングデータを取得するための取得モジュールを含み、前記取得モジュールは具体的に前記トレーニング文書に対して単語分割処理とノイズ除去処理を行って、前記トレーニング文書の純テキストを得、前記トレーニング文書の各要約文に対して、前記純テキスト中の各文を走査して、前記純テキスト中の一つの文がある要約文のすべての非ストップワードを含んだとき、前記純テキスト中の当該文及び対応する要約文を一組の第一原句及び対応する要約を構成する。
一例として、入力モジュール22は、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力するステップの前に、さらに前記処理すべき文書に対して単語分割処理とノイズ除去処理を行って、前記処理すべき文書の純テキストを得て、前記処理すべき文書の純テキストから前記第二原句を抽出する。
一例として、処理モジュール23は具体的に、各前記第二原句中の各単語と対応する要約中の各単語との間の注意力行列を抽出して、各単語対の注意力値に基づいて単語注意力表を構築し、前記単語注意力表には前記処理すべき文書中の各第二原句の各単語と対応する要約中の各単語との間の注意力値が含まれ、前記単語注意力表中の単語を連語にマージし、かつ各単語対の注意力値によって各連語対の間の注意力値を更新して連語注意力表を得て、前記連語注意力表には前記処理すべき文書中の各第二原句の各連語と対応する要約中の各連語との間の注意力値が含まれる。
具体的に、処理モジュール23は各前記第二原句に構文解析を行い、構文連語タグに基づいて前記第二原句中の単語を連語にマージする。その内、各連語対の間の注意力値は、当該対の連語に含まれる複数対の単語間の注意力値の平均値であることが可能である。
一例として、生成モジュール24は、前記処理すべき文書の純テキストの見出しまたは第一文から名前付きエンティティを選択して前記最初の連語にする。
一例として、生成モジュール24は、具体的に次のステップを実行して拡張された複数の連語候補集合を得る。
ステップa:各前記最初の連語に対して連語候補集合を構築する。
ステップb:前記連語注意力表から前記連語候補集合中の各連語と最高注意力値を有する連語を選択して、前記最高注意力値が所定閾値より大きい時に、前記最高注意力値に対応する連語を前記連語候補集合に追加する。
ステップc:前記連語候補集合の長さが目標長さに達したかどうかを判定し、前記連語候補集合の長さが目標長さに達したときに、ステップbを実行せず、前記連語候補集合の長さが目標長さに達していないときに、続けてステップbを実行する。
一例として、生成モジュール24は具体的に、各前記連語候補集合中の連語を可読性を有する文に組み合わせ、かつ各前記連語候補集合のオフセット量を計算して、前記連語候補集合のオフセット量によって前記処理すべき文書の要約として前記連語候補集合が集まった文を出力し、その内、前記連語候補集合のオフセット量が前記連語候補集合中のすべての単語の平均オフセット量である。
<実施例3>
本発明の実施例はさらに文書要約を生成する電子機器30を提供して、図7に示すように、プロセッサー32と、コンピュータプログラムコマンドが格納されるメモリ34と、を含む。
ここで、前記コンピュータプログラムコマンドが前記プロセッサーにより実行された時に、前記プロセッサー32に、下記のステップ、即ちトレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得て、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書中の純テキスト文であるステップと、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記第二原句は処理すべき文書中の純テキスト文であるステップと、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記連語注意力表には前記処理すべき文書中の各第二原句の連語と対応する要約中の連語との間の注意力値が含まれる、ステップと、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を行わせる。
さらに、図7に示すように、文書要約の生成を実現する電子機器30はネットワークインターフェース31と、入力装置33と、ハードディスク35と、表示装置36とを含む。
上記各インターフェースと装置との間にはバスアーキテクチャーを介して連接し合う。バスアーキテクチャーは任意数のコンポーネントインターコネクトされるバスとブリッジとを含むことができる。具体的には、プロセッサー32が代表する一つまたは複数の中央プロセッサー(CPU)およびメモリ34が代表する一つまたは複数のメモリの各種回路とが連接されている。バスアーキテクチャーは周辺装置、定電圧器と電源管理回路などの各種ほかの回路を一緒に連接させることができる。なお、バスアーキテクチャーはこれらのユニットの間の連接通信を実現するために用いられる。バスアーキテクチャーはデータバスのほか、電源バスと、制御バスと、状態信号バスとを含むことは当分野において公知され、詳細な説明を省略する。
前記ネットワークインターフェース31はネットワーク(例えばインターネット、ローカルエリアネットワークなど)に接続されて、ネットワークから。例えばトレーニングデータのような関連データを取得し、かつハードディスク35に保存することができる。
前記入力装置33は作業員より入力された各種のコマンドを受け取り、かつプロセッサー32に発送して実行される。前記入力装置33はキーボードまたはクリックデバイス(例えばマウス、軌跡球(トラックボール)、接触感知板またはタッチスクリーンなど)を含む。
前記表示装置36はプロセッサー32がコマンドを実行して得た結果を表示できる。
前記メモリ34は、システム稼動時に必須なプログラムとデータ、およびプロセッサー32の計算過程における中間結果などのデータを格納するように用いられ。
なお、本発明の実施例におけるメモリ34は揮発性メモリまたは不揮発性メモリでもよく、あるいは揮発性メモリと不揮発性メモリとの両者を含むことが可能である。そこで、不揮発性メモリは読み出し専用メモリ(ROM)で、プログラマブル読み出し専用メモリ(PROM)で、消去可能なプログラマブル読み出し専用メモリ(EPROM)で、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)でもよい。揮発性メモリはランダムアクセスメモリ(RAM)でもよく、外部キャッシュとして用いられる。本明細書に記載の装置と方法のメモリ34はこれらおよび任意のほかの適合類型のメモリを含むが、限られることではない。
いくつかの実施形態において、メモリ34は以下の要素、即ち実行可能なモジュールまたはデータ構造、あるいはそれらのサブ集合または拡張集合、オペレーティングシステム341とアプリケーションプログラム342を格納している。
ここで、オペレーティングシステム341は各種の基礎業務およびハードウェアに基づくタスクを実現するように、例えば枠組層、コアー層、駆動層など各種のシステムプログラムを含む。アプリケーションプログラム342は各種のアプリケーション業務を実現するように、例えばブラウザー(Browser)などの各種アプリケーションプログラムを含む。本発明の実施例の方法を実現するプログラムはアプリケーションプログラム342に含まれることが可能である。
上記プロセッサー32によって前記メモリ34に格納されたアプリケーションプログラムとデータ、具体的には、アプリケーションプログラム342に格納されたプログラムまたはコマンドを呼び出しかつ実行する場合は、トレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得て、前記トレーニングデータは少なくとも一組の第一元フレーズ及びそれに対応する要約を含み、前記第一原句はトレーニング文書中の純テキスト文である。処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記第二原句は処理すべき文書中の純テキスト文である。前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記連語注意力表には前記処理すべき文書中の各第二原句の連語と対応する要約中の連語との間の注意力値が含まれる。前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。
本発明の上記実施例による方法はプロセッサー32に応用でき、あるいはプロセッサー32によって実現できる。プロセッサー32は信号の処理能力を持つ集積回路チップであってもよい。実現過程では、上記方法の各ステップはプロセッサー32内のハードウェアの集積ロジック回路またはソフトウェア形式のコマンドによって完成できる。上記プロセッサー32は汎用プロセッサーで、デジタル信号処理器(DSP)で、特定用途向け集積回路(ASIC)で、現場で構成可能な回路アレイ(FPGA)で、個別ゲートまたはトランジスタロジックデバイスで、個別ハードウェアユニットであってもよく、本発明の実施例に公開された各方法、ステップおよびロジックブロック図を実現または実行できる。汎用プロセッサーはマイクロプロセッサーまたはいかなる常用的なプロセッサーであっても良い。本発明の実施例より公開された方法のステップと結合して直接にできるのは、ハードウェアデコーダプロセッサーより実行して完成、またはデコーダプロセッサー内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完成することである。ソフトウェアモジュールはランダムメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリまたは電気的に消去可能なプログラマブルメモリ、レジスタなどの当分野において成熟された記録媒体に位置することが可能である。当該記録媒体はメモリ34にあり、プロセッサー32はメモリ34内の情報を読み取って、そのハードウェアと結合して上記方法のステップを完成する。
なお、本明細書に記載されたこれらの実施例に、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコードまたはその組み合わせによって実現できる。ハードウェアの実現について、プロセスユニットはひとつまたは複数の特定用途向け集積回路(ASIC)、デジタル信号処理器(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールド プログラマブル
ゲート アレイ(FPGA)、汎用プロセッサー、コントローラ、マイクロコントローラ、マイクロプロセッサー、本願の前記機能を実現するためのほかの電子モジュールまたは組み合わせに実現可能である。
ソフトウェアの実現について、本明細書に記載された前記機能を実行するモジュール(例えばプロセス、関数など)によって本明細書の前記技術を実現できる。ソフトウェアコードはメモリに格納、かつプロセッサーによって実行することが可能である。メモリはプロセッサー内またはプロセッサー外部において実現できる。
具体的に、プロセッサー32は前記トレーニングデータを獲得し,前記トレーニングデータを獲得するステップは以下を含む。前記トレーニング文書に対して単語分割処理とノイズ除去処理を行って、前記トレーニング文書の純テキストを得、前記トレーニング文書の各要約文に対して、前記純テキスト中の各文を走査して、前記純テキスト中の一つの文がある要約文のすべての非ストップワードを含んだとき、前記純テキスト中の当該文及び対応する要約文を一組の第一原句及び対応する要約を構成する。
具体的に、プロセッサー32は処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力するステップの前に、前記処理すべき文書に対して単語分割処理とノイズ除去処理を行って、前記処理すべき文書の純テキストを得て、前記処理すべき文書の純テキストから前記第二原句を抽出する。
プロセッサー32は具体的に、各前記第二原句中の各単語と対応する要約中の各単語との間の注意力行列を抽出して、各単語対の注意力値に基づいて単語注意力表を構築し、前記単語注意力表には前記処理すべき文書中の各第二原句の各単語と対応する要約中の各単語との間の注意力値が含まれ、前記単語注意力表中の単語を連語にマージし、かつ各単語対の注意力値によって各連語対の間の注意力値を更新して連語注意力表を得て、前記連語注意力表には前記処理すべき文書中の各第二原句の各連語と対応する要約中の各連語との間の注意力値が含まれる。
プロセッサー32は具体的に、各前記第二原句に構文解析を行い、構文連語タグに基づいて前記第二原句中の単語を連語にマージする。各連語対の間の注意力値は、当該対の連語に含まれる複数対の単語間の注意力値の平均値である。
プロセッサー32は具体的に、前記処理すべき文書の純テキストの見出しまたは第一文から名前付きエンティティを選択して前記最初の連語にする。
プロセッサー32は具体的に、次のステップを実行して拡張された複数の連語候補集合を得る。
ステップa:各前記最初の連語に対して連語候補集合を構築する。
ステップb:前記連語注意力表から前記連語候補集合中の各連語と最高注意力値を有する連語を選択して、前記最高注意力値が所定閾値より大きい時に、前記最高注意力値に対応する連語を前記連語候補集合に追加する。
ステップc:前記連語候補集合の長さが目標長さに達したかどうかを判定し、前記連語候補集合の長さが目標長さに達したときに、ステップbを実行せず、前記連語候補集合の長さが目標長さに達していないときに、続けてステップbを実行する。
プロセッサー32は具体的に、各前記連語候補集合中の連語を可読性を有する文に組み合わせ、かつ各前記連語候補集合のオフセット量を計算して、前記連語候補集合のオフセット量によって前記処理すべき文書の要約として前記連語候補集合が集まった文を出力し、その内、前記連語候補集合のオフセット量が前記連語候補集合中のすべての単語の平均オフセット量である。
本実施例では、複数組の第一元フレーズ及びそれに対応する要約を含むトレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。本発明の技術方案は処理すべき文書の重要連語によって文を構成して、そして処理すべき文書の要約を形成し、豊富な特徴を利用して要約を生成したので、文書の意味を精確に代表でき、かつ生成された要約の論理性がよく、人々の閲読習慣に合致して、可読性がよい。
<実施例4>
さらに、本発明の実施例よりコンピュータ読み取り可能な記録媒体が提供され、前記コンピュータ読み取り可能な記録媒体はコンピュータプログラムを格納、前記コンピュータプログラムが前記プロセッサーにより実行される時に、前記プロセッサーに、トレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得て、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書中の純テキスト文であるステップと、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記第二原句は処理すべき文書中の純テキスト文であるステップと、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記連語注意力表には前記処理すべき文書中の各第二原句の連語と対応する要約中の連語との間の注意力値が含まれる、ステップと、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を含む。
<実施例5>
以下、図面を参照して本発明の文書要約の生成方法についてさらに説明し、図8に示すように、本発明の実施例に係る文書要約の生成方法は具体的に以下のステップを含む。
ステップ401:少なくとも一組の第一原句及びそれに対応する要約を含むトレーニングデータを取得する。
トレーニング文書およびトレーニング文書の要約をあらかじめ取得し、トレーニング文書に対して単語分割処理とノイズ除去処理を行って、トレーニング文書の純テキストを得るが、そこで、ノイズ除去処理はトレーニング文書中のノイズを除去して、トレーニング文書の純テキストだけを保留することであって、ノイズにはURL、電話番号及びその他のソーシャルネットワークアカウントを含むが、それらに限られない。
あるトレーニング文書によりトレーニングデータを取得する例を説明すると、当該トレーニング文書の要約中の各文に対して、当該トレーニング文書の純テキスト中の各文を走査し、もし当該トレーニング文書の純テキスト中の一つの文がある要約文のすべての非ストップワードを含んだとき、当該純テキスト中の当該文及び対応する要約文を一組の第一原句及び対応する要約を一組のトレーニングデータとする。このうち、ストップワードは実際の語義を持たない単語であり、助詞、例えば疑問や感動を表す助詞などを含む。
各トレーニング文書に上記操作に行うことで、大量のトレーニングデータが得られる。
ステップ402:トレーニングデータを用いて注意力(attention)行列を持つニューラルネットワークモデルを訓練して得る。
ニューラルネットワークモデルにseq2seqモデルを例とし、トレーニングデータに含まれる複数組の第一原句とそれに対応する要約をseq2seqモデルに入力して、注意力行列を持つseq2seqモデルを学習し得る。そこで、seq2seqモデルのencoder(エンコード)とdecoder(デコード)の層数を3に設定して、注意力行列にグローバルスキーマが用いられた。seq2seqモデルの注意力行列は以下に示す。
Figure 2019139772
Figure 2019139772
ここで、eijはエネルギーであり、encoder側単語xi-1がdecoder側単語yjに対する影響力を表し、si-1はdecoderがi-1時刻の隠れ状態で、hjはencoderすべての時刻における出力状態で、aは非線形関数で、aijはエネルギーeijに対してsoftmax正規化の結果であり、すなわち、注意力行列である。
seq2seqモデルのencoderに純テキストを入力して、decoder側で生成された要約およびencoder側単語とdecoder側単語との間の注意力行列を得る。
ステップ403:処理すべき文書の各第二原句をニューラルネットワークモデルに入力して、第二原句対応の要約および第二原句中の各単語と対応要約中の各単語との注意力行列を得る。
ここで、第二原句は処理すべき文書中の純テキスト文である。まず、処理すべき文書に対して単語分割処理とノイズ除去処理を行って処理すべき文書の純テキストを得る。ここで、ノイズ除去処理は処理すべき文書中のノイズを除去して、処理すべき文書の純テキストだけを保留して、処理すべき文書の純テキストから第二原句を抽出する。前記ノイズにはURL、電話番号及びその他のソーシャルネットワークアカウントが含まれるが、それらに限られない。
処理すべき文書の純テキスト中の第二原句をseq2seqモデルのencoderに入力して、seq2seqモデルのdecoder側で生成され当該第二原句に対応する要約、および第二原句中の各単語と対応要約中の各単語との注意力行列を得ることができる。
図9に示すように、一つの例では、第二原句が「Angry Tom Cherry in
dining room」であり、当該第二原句をseq2seqモデルのencoderに入力して、seq2seqモデルのdecoder側で生成される要約「Tom CherJerry」を得ることができ、また第二原句中の各単語と対応要約中の各単語との注意力行列cを得ることもできる。
ステップ404:各第二原句中の各単語と対応する要約中の各単語との間の注意力行列を抽出して、各単語対の注意力値に基づいて単語注意力表を構築する。
ここで、単語注意力表には処理すべき文書中の各第二原句の各単語と対応する要約中の各単語との間の注意力値が含まれる。第二原句を「Angry Tom Cherry in dining room」とし、出力した要約を「Tom
CherJerry」として構築された単語注意力表は表1に示し、そこで、Aijは第二原句中のi番目の単語と対応要約中のj番目の単語との間の注意力値である。
Figure 2019139772
ステップ405:単語注意力表中の単語を連語にマージし、かつ各単語対の注意力値によって各連語対の間の注意力値を更新して連語注意力表を得る。
具体的には、既存の構文解析ツールを用いて第二原句に対して構文解析することができ、構文連語タグ(たとえばNP、VP)によって単語を連語にマージして、例えばノードツリーにおいて単語がリーフノードであり、リーフノードの1層上のノードに対応するリーフノードをマージして連語を得ることができる。第二原句「Angry
Tom Cherry in dining room」を例として、「Angry」とTom」とを「Angry Tom」にマージでき、「dining」と「room」とを「dining
room」にマージでき、かつ各単語対の注意力値によって各連語対の間の注意力値を更新して連語注意力表を得て、連語注意力表には処理すべき文書中の各第二原句の各連語と対応する要約中の各連語との間の注意力値が含まれる。
具体的には、各連語対の間の注意力値を当該対の連語に含まれる複数対の単語間の注意力値の平均値にすることができ、表1に示す単語注意力表から得られる連語注意力表は表2に示す。
Figure 2019139772
ステップ406:処理すべき文書から最初の連語を選択し、かつ各連語にひとつの連語候補集合を生成する。
具体的には、処理すべき文書の純テキストの見出しまたは第一文から名前付きエンティティを選択して最初の連語にすることができる。
ステップ407:各連語の連語候補集合を拡張して、拡張された複数の連語候補集合を得る。
連語注意力表から連語候補集合中の各連語と最高注意力値を有する連語を選択して、最高注意力値が所定閾値より大きい時に、最高注意力値に対応する連語を連語候補集合に追加し、上記ステップを繰り返して実行し、かつ連語候補集合の長さが目標長さに達したかどうかを判定して、連語候補集合の長さが目標長さに達したときに、連語を連語候補集合に追加することを停止して、連語候補集合の長さが目標長さに達していないときに、続けて上記ステップを実行して、要求を満たす連語を連語候補集合に追加する。例えば、連語候補集合に連語Aが含まれて、連語Aと最高注意力値を有する連語Bを連語注意力表から選択して、当該最高注意力値が所定閾値より大きければ、連語Bを連語候補集合に加えて、再び連語注意力表から連語Bと最高注意力値を有する連語Cを選択して、当該最高注意力値が所定閾値より大きければ、連語Cを連語候補集合に加え、このように、連語候補集合の長さが目標長さに達するまでに行う。
図10に示すように、最初の連語候補集合が<Tom>と<Jerry>であり、一回目の拡張によって得た連語候補集合が<Tom、chase>、<Tom、Indian
Headdress>、<Jerry、Nibbles>と<Jerry、Dining room>になり、二回目の拡張によって得た連語候補集合が<Tom,chase,Nibbles
>、<Tom,Indian Headdress,shotgun>、<Jerry,Nibbles,feed>などになり、三回目の拡張によって得た連語候補集合が<Tom,chase,Nibbles,dining room >などである。
ステップ408:各拡張された連語候補集合中の連語を文に組み合わせる。
既存の音声ツールによって各連語候補集合中の連語を可読性を有する文に組み合わせて、例えば、連語候補集合<Tom,chase,Nibbles,dining room >を文「Tom chase Nibbles in
dining room」に組み合わせることができる。
ステップ409:各拡張された連語候補集合のオフセットに基づいて集まった後の文を出力して、処理すべき文書の要約を生成する。
各連語候補集合のオフセット量を計算し、連語候補集合のオフセット量によって処理すべき文書の要約として連語候補集合が集まった文を出力して、たとえば、オフセット量の低い順から、各前記連語候補集合が集まった文を順次に出力し、そこで、連語候補集合のオフセット量が連語候補集合中のすべての単語の平均オフセット量である。
本実施例では、複数組の第一元フレーズ及びそれに対応する要約を含むトレーニングデータを利用して注意力行列を持つニューラルネットワークモデルを学習し得、処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を獲得し、前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成して、前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を得て、各前記連語候補集合中の連語を文に組み合わせて、前記処理すべき文書の要約を生成する。本発明の技術方案は処理すべき文書の重要連語によって文を構成して、そして処理すべき文書の要約を形成し、豊富な特徴を利用して要約を生成したので、文書の意味を精確に代表でき、かつ生成された要約の論理性がよく、人々の閲読習慣に合致して、可読性がよい。
以上は本発明の最適な実施形態を説明しているが、当業者にとって、本発明の前記技術思想から逸脱しない場合、若干の改良と修正を行うことが可能であり、これらの改良と修正も本発明の保護範囲内にあると見なすべきである。

Claims (12)

  1. トレーニングデータにより学習を行うことで注意力(attention)行列を持つニューラルネットワークモデルを取得するステップであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、ステップと、
    処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得するステップであって、前記第二原句は処理すべき文書における純テキスト文である、ステップと、
    前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、ステップと、
    前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を含むことを特徴とする文書要約の生成方法。
  2. 前記トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するステップの前に、前記文書要約の生成方法は、さらに前記トレーニングデータを取得するステップを含み、
    前記トレーニングデータを取得するステップは、
    前記トレーニング文書に対して単語分割処理とノイズ除去処理を行って、前記トレーニング文書の純テキストを取得することと、
    前記トレーニング文書の各要約文に対して、前記純テキストにおける各文を走査し、前記純テキストにおける文が一要約文のすべての非ストップワードを含む場合、前記純テキストにおける当該文及び対応する要約文を一組の第一原句及び対応する要約とすることと、を含むことを特徴とする請求項1に記載の文書要約の生成方法。
  3. 前記処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力するステップの前に、前記文書要約の生成方法はさらに、
    前記処理すべき文書に対して単語分割処理とノイズ除去処理を行って、前記処理すべき文書の純テキストを取得して、前記処理すべき文書の純テキストから前記第二原句を抽出すること、を含むことを特徴とする請求項1に記載の文書要約の生成方法。
  4. 前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップは、
    各前記第二原句における各単語と対応する要約における各単語との間の注意力行列を抽出し、各単語対の注意力値に基づいて単語注意力表を構築することであって、前記単語注意力表には前記処理すべき文書における各第二原句の各単語と対応する要約における各単語との間の注意力値が含まれる、ことと、
    前記単語注意力表における単語を連語にマージし、各単語対の注意力値に基づいて各連語対の間の注意力値を更新して連語注意力表を取得することであって、前記連語注意力表には前記処理すべき文書における各第二原句の各連語と対応する要約における各連語との間の注意力値が含まれる、ことと、を含むことを特徴とする請求項1に記載の文書要約の生成方法。
  5. 前記単語注意力表における単語を連語にマージするステップは、
    各前記第二原句に対して構文解析を行い、構文連語タグに基づいて前記第二原句における単語を連語にマージすること、を含むことを特徴とする請求項4に記載の文書要約の生成方法。
  6. 各連語対の間の注意力値は当該対の連語に含まれる複数対の単語間の注意力値の平均値であることを特徴とする請求項4に記載の文書要約の生成方法。
  7. 前記処理すべき文書から最初の連語を選択するステップは、
    前記処理すべき文書の純テキストの見出しまたは第一文から名前付きエンティティを前記最初の連語として選択すること、を含むことを特徴とする請求項1に記載の文書要約の生成方法。
  8. 前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得するステップは、
    (a)各前記最初の連語に対して連語候補集合を構築するステップと、
    (b)前記連語注意力表から前記連語候補集合における各連語と最高注意力値を有する連語を選択して、前記最高注意力値が所定閾値よりも大きい場合、前記最高注意力値に対応する連語を前記連語候補集合に追加するステップと、
    (c)前記連語候補集合の長さが目標長さに達したか否かを判定し、前記連語候補集合の長さが目標長さに達した場合、ステップ(b)を実行せず、前記連語候補集合の長さが目標長さに達していない場合、続けてステップ(b)を実行するステップと、を含むことを特徴とする請求項1に記載の文書要約の生成方法。
  9. 各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップは、
    各前記連語候補集合における連語を可読性の有する文に組み合わせ、かつ各前記連語候補集合のオフセット量を計算して、前記連語候補集合のオフセット量の順に前記連語候補集合における文を前記処理すべき文書の要約として出力すること、を含み、
    前記連語候補集合のオフセット量は、前記連語候補集合におけるすべての単語の平均オフセット量であることを特徴とする請求項1に記載の文書要約の生成方法。
  10. トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するトレーニングモジュールであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、トレーニングモジュールと、
    処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得する入力モジュールであって、前記第二原句は処理すべき文書における純テキスト文である、入力モジュールと、
    前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成する処理モジュールであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、処理モジュールと、
    前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成する生成モジュールと、を含むことを特徴とする文書要約の生成装置。
  11. プロセッサーと、
    コンピュータプログラムコマンドを記憶するメモリと、を含み、
    前記コンピュータプログラムコマンドが前記プロセッサーにより実行される時に、前記プロセッサーに、
    トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するステップであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、ステップと、
    処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得するステップであって、前記第二原句は処理すべき文書における純テキスト文である、ステップと、
    前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、ステップと、
    前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を実行させることを特徴とする文書要約を生成する電子機器。
  12. コンピュータプログラムを記憶するコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムがプロセッサーにより実行される時、前記プロセッサーに、
    トレーニングデータにより学習を行うことで注意力行列を持つニューラルネットワークモデルを取得するステップであって、前記トレーニングデータは少なくとも一組の第一原句及びそれに対応する要約を含み、前記第一原句はトレーニング文書における純テキスト文である、ステップと、
    処理すべき文書の各第二原句を前記ニューラルネットワークモデルに入力して、各第二原句に対応する要約を取得するステップであって、前記第二原句は処理すべき文書における純テキスト文である、ステップと、
    前記処理すべき文書の各第二原句とそれに対応する要約との間の注意力行列に基づいて連語注意力表を作成するステップであって、前記連語注意力表には前記処理すべき文書における各第二原句の連語と対応する要約における連語との間の注意力値が含まれる、ステップと、
    前記処理すべき文書から最初の連語を選択して、前記連語注意力表によって各前記最初の連語に対して拡張を行い、拡張された複数の連語候補集合を取得して、各前記連語候補集合における連語を文に組み合わせて、前記処理すべき文書の要約を生成するステップと、を実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
JP2019019459A 2018-02-08 2019-02-06 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 Active JP6693582B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810151330.9 2018-02-08
CN201810151330.9A CN110134780B (zh) 2018-02-08 2018-02-08 文档摘要的生成方法、装置、设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2019139772A true JP2019139772A (ja) 2019-08-22
JP6693582B2 JP6693582B2 (ja) 2020-05-13

Family

ID=67568154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019019459A Active JP6693582B2 (ja) 2018-02-08 2019-02-06 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体

Country Status (2)

Country Link
JP (1) JP6693582B2 (ja)
CN (1) CN110134780B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705287A (zh) * 2019-09-27 2020-01-17 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN113111663A (zh) * 2021-04-28 2021-07-13 东南大学 一种融合关键信息的摘要生成方法
CN113449079A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN113626581A (zh) * 2020-05-07 2021-11-09 北京沃东天骏信息技术有限公司 摘要生成方法及装置、计算机可读存储介质、电子设备
CN113779232A (zh) * 2020-06-12 2021-12-10 北京沃东天骏信息技术有限公司 物品摘要生成方法及装置、计算机存储介质、电子设备
CN114996441A (zh) * 2022-04-27 2022-09-02 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157914B (zh) * 2021-02-04 2022-06-14 福州大学 一种基于多层循环神经网络的文档摘要提取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017509963A (ja) * 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成
JP2018005218A (ja) * 2016-07-07 2018-01-11 三星電子株式会社Samsung Electronics Co.,Ltd. 自動通訳方法及び装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
CN104915335B (zh) * 2015-06-12 2018-03-16 百度在线网络技术(北京)有限公司 为主题文档集生成摘要的方法和装置
CN107368613B (zh) * 2017-09-05 2020-02-28 中国科学院自动化研究所 短文本情感分析方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017509963A (ja) * 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成
JP2018005218A (ja) * 2016-07-07 2018-01-11 三星電子株式会社Samsung Electronics Co.,Ltd. 自動通訳方法及び装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
吉岡 重紀、外1名: "生成型一文要約のためのマルチアテンションモデルの提案", 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会), JPN6018000595, 8 August 2016 (2016-08-08), JP, pages 1 - 7, ISSN: 0004183195 *
大塚 淳史、外4名: "答えを先読みする文書検索手法の提案", 第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) [O, JPN6019050670, 6 July 2017 (2017-07-06), JP, pages 1 - 8, ISSN: 0004183194 *
小平 知範、外1名: "TL;DR 3行要約に着目したニューラル文書要約", 電子情報通信学会技術研究報告, vol. 第117巻,第212号, JPN6019050667, 11 September 2017 (2017-09-11), JP, pages 193 - 198, ISSN: 0004183191 *
瀧川 雅也、外2名: "線形化された構文情報を用いた生成型ニューラル文要約", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6019050669, 7 July 2017 (2017-07-07), JP, pages 1058 - 1061, ISSN: 0004183193 *
菊池 悠太、他4名: "Encoder−Decoderモデルにおける出力長制御", 研究報告自然言語処理(NL)[ONLINE], vol. 2016−NL−227, JPN6018046753, 1 August 2016 (2016-08-01), JP, pages 1 - 9, ISSN: 0004183192 *
黒橋 禎夫: "深層学習による自然言語処理の進展", シミュレーション, vol. 第36巻,第4号, JPN6019050666, 15 December 2017 (2017-12-15), JP, pages 13 - 18, ISSN: 0004183190 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705287A (zh) * 2019-09-27 2020-01-17 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN110705287B (zh) * 2019-09-27 2023-06-30 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN113626581A (zh) * 2020-05-07 2021-11-09 北京沃东天骏信息技术有限公司 摘要生成方法及装置、计算机可读存储介质、电子设备
CN113779232A (zh) * 2020-06-12 2021-12-10 北京沃东天骏信息技术有限公司 物品摘要生成方法及装置、计算机存储介质、电子设备
CN113111663A (zh) * 2021-04-28 2021-07-13 东南大学 一种融合关键信息的摘要生成方法
CN113449079A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN113449079B (zh) * 2021-06-25 2022-10-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN114996441A (zh) * 2022-04-27 2022-09-02 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114996441B (zh) * 2022-04-27 2024-01-12 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110134780A (zh) 2019-08-16
CN110134780B (zh) 2023-11-24
JP6693582B2 (ja) 2020-05-13

Similar Documents

Publication Publication Date Title
JP6693582B2 (ja) 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
WO2021134524A1 (zh) 数据处理方法、装置、电子设备和存储介质
WO2021017735A1 (zh) 一种智能合约的形式化验证方法、电子装置及存储介质
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
CN111026319B (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN107690634B (zh) 自动查询模式生成方法及系统
WO2008022581A1 (fr) Procédé et dispositif d&#39;obtention de mots nouveaux et système et procédé de saisie
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN111026320A (zh) 多模态智能文本处理方法、装置、电子设备及存储介质
JP2020095653A (ja) 作成支援装置および作成支援方法
CN118296120A (zh) 多模态多尺度多路召回的大型语言模型检索增强生成方法
JP2019040260A (ja) 情報処理装置及びプログラム
CN111968624B (zh) 数据构建方法、装置、电子设备及存储介质
CN114596859A (zh) 会议语音转写方法、系统、设备及存储介质
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP6457058B1 (ja) 知的財産システム、知的財産支援方法および知的財産支援プログラム
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
WO2020211397A1 (zh) 课件页面的显示及页面集的构造方法、装置、设备和介质
JP2019101889A (ja) テスト実行装置及びプログラム
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN116702747A (zh) Pdf在线阅读器设计方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200330

R151 Written notification of patent or utility model registration

Ref document number: 6693582

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151