JP2020024598A - 情報処理装置、プログラム及びシステム - Google Patents

情報処理装置、プログラム及びシステム Download PDF

Info

Publication number
JP2020024598A
JP2020024598A JP2018149175A JP2018149175A JP2020024598A JP 2020024598 A JP2020024598 A JP 2020024598A JP 2018149175 A JP2018149175 A JP 2018149175A JP 2018149175 A JP2018149175 A JP 2018149175A JP 2020024598 A JP2020024598 A JP 2020024598A
Authority
JP
Japan
Prior art keywords
summary sentence
processing
sentence
concept
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018149175A
Other languages
English (en)
Inventor
修 萬羽
Osamu Manba
修 萬羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018149175A priority Critical patent/JP2020024598A/ja
Publication of JP2020024598A publication Critical patent/JP2020024598A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の要約文と比較して、ユーザが詳細な情報を取得するといった行動を起こしやすいような、適切な要約文を生成することが可能な情報処理装置等を提供すること。【解決手段】通信部と、制御部と、を有する情報処理装置において、前記制御部は、前記通信部を介して取得された文から加工前要約文を生成し、前記加工前要約文の構文解析を行い、前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得し、前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する。【選択図】図1

Description

本発明は、情報処理装置等に関する。
入力された文書から、重要な単語と、重要な単語同士の関係を抽出し、それらに基づいて文書の要約を生成する方法が従来から知られている。例えば、特許文献1には以下の発明が開示されている。
文書入力手段からは、処理の対象となる文書が入力される。重要単語抽出手段は、文書入力手段から入力された文書から、出現頻度などを参照して重要な単語を抽出する。関係表生成手段は、重要単語抽出手段によって抽出された重要な単語を含む文の構造を解析し、その文に含まれている単語同士の2項関係を抽出して関係表を生成する。選択関係表生成手段は、関係表生成手段によって生成された関係表から、重要な単語を含む2項関係を所定の規則に従って抽出し、選択関係表を生成する。補完関係付加手段は、選択関係表に含まれている2項関係を補完する新たな2項関係を関係表から取得し、選択関係表に付加する。文合成手段は、補完関係付加手段5によって新たな2項関係が付加された選択関係表に含まれている2項関係から入力された文書の要約である文を合成して出力する。
特開平11−282881号公報
従来、要約文を生成する場合には、重要な語句と、語句同士の関係から要約が作成されることから、重要な語句を全て含めるのが一般的である。要約文に全ての重要な語句が含まれてしまうことから、ユーザは、要約文だけで満足してしまい、それ以上の情報を知りたいと思う動機づけが起こりにくく、詳細な情報を取得するといった行動を起こしにくかった。
上述した課題に鑑み、本発明は、従来の要約文と比較して、ユーザが詳細な情報を取得するといった行動を起こしやすいような、適切な要約文を生成することが可能な情報処理装置等を提供することである。
本発明の情報処理装置は、通信部と、制御部と、を有する情報処理装置において、前記制御部は、前記通信部を介して取得された文から加工前要約文を生成し、前記加工前要約文の構文解析を行い、前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得し、前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する、ことを特徴とする。
本発明のプログラムは、通信部を有するコンピュータに、前記通信部を介して取得された文から加工前要約文を生成する機能と、前記加工前要約文の構文解析を行う機能と、前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得する機能と、前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する機能と、を実現することを特徴とする。
本発明のシステムは、記事サーバと、第1通信部と第1制御部とを有する対話サーバと、第2通信部と、第2制御部とを有する情報処理装置とが接続されるシステムにおいて、前記対話サーバの第1制御部は、前記第1通信部を介して前記記事サーバから入力文を取得し、前記情報処理装置の第2制御部は、前記第2通信部を介して前記対話サーバから取得された文から加工前要約文を生成し、前記加工前要約文の構文解析を行い、前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得し、前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する、ことを特徴とする。
本発明の情報処理装置によれば、従来の要約文と比較して、ユーザが詳細な情報を取得するといった行動を起こしやすいような、適切な要約文を生成することが可能となる。
第1実施形態におけるシステム全体を説明するための図である。 第1実施形態における情報処理装置の構成を説明するための図である。 第1実施形態における概念辞書DBのデータ構成の一例を示す図である。 第1実施形態における(a)端末装置、(b)対話サーバの構成を説明するための図である。 第1実施形態における(a)ユーザ反応記録サーバ装置、(b)概念辞書生成サーバの構成を説明するための図である。 第1実施形態における処理の流れを説明するための図である。 第1実施形態における格要素の分類に関する説明をするための図である。 第1実施形態における処理(選択されるアルゴリズム)を説明するための図である。 第1実施形態における処理における(a)対象(b)処理パターンを説明するための図である。 第1実施形態における要約文の加工処理の具体例を説明するための図である。 第1実施形態における要約文の加工処理の具体例を説明するための図である。 第3実施形態における機械学習のパラメータを説明するための図である。 第3実施形態における要約文の加工処理の具体例を説明するための図である。 第3実施形態における処理・動作を説明するための図である。 第3実施形態における処理・動作を説明するための図である。
以下、図面を参照して本発明を実施するための実施形態について説明する。なお、以下の実施形態は、本願発明を実施するための一例であり、本願発明の技術的範囲が実施形態に記載した内容に限定されないことは勿論である。
[1.第1実施形態]
[1.1 システム構成]
本発明を適用した第1実施形態について説明する。図1は、システム1全体を示す図である。また図2は、情報処理装置10の制御部100が実現する機能を図示したものである。
まず、図1を参照して、本実施形態のシステム全体について説明する。システム1は、文章要約機能を実現可能な情報処理装置10と、対話サーバ30と、ユーザ反応記録サーバ50と、概念辞書生成サーバ60とが接続されている。
なお、これらのサーバは、必要に応じてシステム1に設けられるオプションの構成様相である。例えば、対話サーバ30、ユーザ反応記録サーバ50、概念辞書生成サーバ60を1つのサーバで実現してもよい。また、記事サーバ40、Webサーバ70は、既存のサーバであり、便宜的にシステム1に含んでいるものである。
また、各サーバは、1つで有ってもよいし、複数配置されていてもよい。一般的に、記事サーバ40、Webサーバ70は、複数設けられている。対話サーバ30、概念辞書生成サーバ60は、取得先である記事サーバ40、Webサーバ70は設定されているサーバであってもよいし、自動的に記事等を収集するとしてもよい。
また、各サーバは、システム1の事業者(情報処理装置10の機能を提供する事業者)と同一の事業者により配置されてもよいし、他の事業者により配置されてもよい。
[1.2 装置構成]
つづいて、各装置の構成について説明する。まず、各装置に備えられている制御部、記憶部、通信部について説明する。
制御部は、各装置/サーバの全体を制御するための機能部である。制御部は、各装置/サーバの記憶部に記憶されている各種プログラムを読み出して実行する1又は複数の演算装置であり、例えばCPU(Central Processing Unit)等により構成されている。
記憶部は、各装置/サーバの動作に必要な各種プログラムや、各種データが記憶されている機能部である。記憶部は、例えば、半導体メモリであるSSD(Solid State Drive)や、磁気ディスクであるHDD(Hard Disk Drive)等により構成されている。また、ネットワークに接続されたストレージであったり、クラウド領域を利用したりしてもよい。また、ローカルの記憶領域である内蔵された記憶領域と、外部に接続された外部記憶装置の記憶領域と、ネットワーク上の記憶領域とは、一又は複数組み合わせてもよい。
通信部は、各装置/サーバが通信を行うための機能部である。例えば、有線LAN/無線LAN等のネットワークを利用し、装置/サーバ間で通信を行う。通信方式としては、IEEE802.11a/b/g/nといったWLANを利用してもよいし、イーサネット(登録商標)を利用した有線LANであってもよい。また、通信部は、LTE/WiMAX/5GといったWANを利用可能なインタフェースであってもよい。
上述した制御部、記憶部、通信部は、各装置/サーバにおいて備えられており、各装置/サーバに応じて機能している。また、明示していないが、各装置において操作入力を受け付ける操作部や、各種情報を表示する表示部が接続可能となっている。
[1.2.1 端末装置]
(対話型)端末装置20は、対話機能を搭載しており、ユーザと対話処理を実行することができる。端末装置20としては、例えば、スマートフォンやタブレットの装置に対話機能を実現可能なプログラムをインストールして実現してもよいし、スマートスピーカや、ロボット型の装置により実現してもよい。例えば、ユーザからの音声(反応)を入力する。また、対話サーバ30から送信される対話情報に基づいて音声を出力する。なお、端末装置20は、対話の方法として好ましくは音声を利用することとして説明するが、文字や、映像といった、ユーザと対話が可能な方法であればよい。
端末装置20の構成の一例を図4(a)に示す。端末装置20は、制御部200と、記憶部210と、通信部220と、音声入出力部230とを備えて構成されている。
制御部200は、記憶部210に記憶されているプログラムを読み出して実行することにより対話制御部202として機能する。対話制御部202は、音声入出力部230より入力された音声に基づいた対話(会話)を制御する。
具体的には、制御部200は、マイク、スピーカ等の音声入出力機能で実現された音声入出力部230により入力された音声を音声データに変換し、対話サーバ30に送信する。また、制御部200は、対話サーバ30から受信された対話情報に基づいて、音声入出力部230から出力する。
また、記憶部210は、ユーザ情報記憶領域212が確保されている。ユーザ情報記憶領域212は、ユーザ情報を記憶する。例えば、ユーザ情報記憶領域212は、ユーザ識別子に対応したユーザ情報(氏名、年齢、音声サンプル等)を記憶する。
なお、本実施形態では対話について音声を利用しておこなうが、文字、映像を利用してもよい。例えば、液晶ディスプレイにより実現される表示部と、タッチ操作入力可能なタッチパネルにより実現される操作部とを備えることで、文字による対話を行うことが可能である。
[1.2.2 対話サーバ]
対話サーバ30は、ユーザと対話を行う対話エンジンを搭載したサーバである。対話サーバ30は、記事サーバ40から定期的に記事を収集している。また、対話型端末装置20から入力されたユーザ反応を、ユーザ反応記録サーバ50に随時送信し、記録している。ここで、対話エンジンは、ユーザから入力された発話文を形態素解析/構文解析/意味解析し、当該発話文に対応する対話文を生成し、対話情報として端末装置20に出力する。
対話サーバ30の構成の一例を図4(b)に示す。対話サーバ30は、制御部300と、記憶部310と、通信部320とを備えて構成されている。
制御部300は、記憶部310に記憶されているプログラムを読み出して実行することにより、記事収集部302、入力文生成部304として機能する。
記事収集部302は、記事サーバ40から、各種記事・情報を示す記事データを収集する。記事収集部302は、収集した記事データを記事データ記憶領域312に記憶する。ここで、記事データはテキスト形式で記憶されてもよいし、HTML(Hyper Text Markup Language)形式、XML(eXtensible Markup Language)形式等で記憶されてもよい。また、記事データは、他にもドキュメントファイルや、PDF(Portable Document Format)ファイルといったファイルから記事データを収集してもよい。
また、収集先となる記事サーバ40の情報(例えば、URI/URL(Uniform Resource Identifier / Uniform Resource Locator)や、IPアドレス等)を記憶部310に記憶してもよい。
入力文生成部304は、記事データから入力文を生成する。入力文生成部304は、生成した入力文毎に処理IDを付加し、情報処理装置10(文送受信部1010)に出力する。
なお、情報処理装置10は、対話サーバ30を介さずに直接通信部130を介して記事サーバ40から記事を取得してもよい。すなわち、文送受信部1010が、記事サーバ40の記事から入力文を取得する。この場合、文送受信部1010が入力文を取得した後に、処理IDを付加する。
[1.2.3 記事サーバ]
記事サーバ40は、インターネットに配置されたサーバであり、本実施形態では対話サーバ30に接続されるサーバである。記事サーバ40は、各種記事・情報を掲載している。例えば、「ニュースサイト」「通販サイト」「企業サイト」「レシピサイト」「情報提供サイト」「掲示板」といった文章情報が掲載されている。
記事サーバ40は、少なくとも制御部、記憶部、通信部を有しており、記憶部には記事・情報を示すデータが記憶されている。記事サーバ40は、外部サービスとして提供されている場合、システム1に含まれないこととしてもよい。
[1.2.4 ユーザ反応記録サーバ]
ユーザ反応記録サーバ50は、ユーザ反応記録器として動作するサーバである。対話サーバ30の対話エンジンを介して、ユーザの反応が記録される。ここで、ユーザの反応とは、例えば、対話エンジンにおけるユーザの反応(回答)や、ユーザの興味のある内容、分野、ユーザ属性に基づいた反応をいう。
例えば、ユーザの対話履歴からユーザの興味のある分野、ユーザが知りたい内容、ユーザの反応時間、ユーザの口調や、ユーザの年齢、居住地域、職業といったパーソナルの情報に基づく反応を含む。
ここで、本実施形態におけるユーザ反応情報は、後述する情報処理装置10が「対象」「処理パターン」「概念語カテゴリ」に基づいて示した加工後要約文を出力したときに、詳細な情報を取得する行動を起こしたという統計情報を含む情報である。ユーザ反応器は、ユーザ反応情報を収集/記録するものである。
また、更に「入力文(ニュース記事)のカテゴリ」「トピック」「文に含まれる固有名詞等の内容」を、統計情報と併せて記録してもよい。
情報処理装置10は、ユーザ反応情報を利用することにより、よりユーザの反応がよい加工後要約文を生成することができるようになる。
また、ユーザ反応情報は、ユーザ毎に管理されることが好ましい。この場合、ユーザ識別子に対応づけてユーザ反応情報が記憶される。また、ユーザ識別子は、ユーザ個人を特定するものが一般的であるが、例えば集団や、グループといった情報を示してもよい。
ユーザ反応記録サーバ50の構成の一例を図5(a)に示す。ユーザ反応記録サーバ50は、制御部500と、記憶部510と、通信部520とを備えて構成されている。
制御部500は、記憶部510に記憶されているプログラムを読み出して実行することにより、ユーザ反応記録部502として機能する。ユーザ反応記録部502は、ユーザの反応を記録する処理を実行する。
例えば、対話サーバ30が、端末装置20から加工後要約文を出力する。このとき、ユーザから反応があった場合に、対話サーバ30は、ユーザの反応があったことをユーザ反応記録サーバ50に送信する。ユーザ反応記録部502は、そのユーザの反応を、ユーザ反応情報として記憶する。
ユーザ反応情報は、記憶部510にユーザ反応情報記憶領域512に記憶される。ユーザ反応情報としては、上述したように統計情報が記憶され、その他種々の情報が併せて記憶されるが、例えば発話ログ、発話率、反応数、反応率等が記憶されてもよい。
[1.2.5 概念辞書生成サーバ]
概念辞書生成サーバ60は、概念辞書生成器として動作するサーバである。例えば、ネットワークNW2に接続されているWebサーバ70から、定期的に情報を収集し、概念辞書DB1100を生成する。概念辞書DB1100は、必要に応じて随時更新される。なお、概念辞書生成器は、概念辞書生成サーバ60が自動的に実行してもよいし、人間の力で辞書を生成してもよい。
概念辞書生成サーバ60の構成の一例を図5(b)に示す。概念辞書生成サーバ60は、制御部600と、記憶部610と、通信部620とを備えて構成されている。
制御部600は、記憶部610に記憶されているプログラムを読み出して実行することにより、記事データ収集部602、概念語/語句取得部604、概念辞書DB生成部606として機能する。
記事データ収集部602は、Webサーバ70から記事データを収集する。収集された記事データは、記憶部610の記事データ記憶領域612に記憶される。
概念語/語句取得部604は、記事データ記憶領域612に記憶された記事データ又はWebサーバ70の記事データから概念語/語句を取得する。ここで、概念語は、単語に対応し、概念語句は、語句に対する。なお、本実施形態において、語句は単語を含む概念である。また、概念語句は、概念語を含む概念である。
概念辞書DB生成部606は、概念辞書DB1100を生成する。ここで、Webサーバ70は、種々の情報が記憶・配信されているWebサーバであり、例えば辞書サーバや、SNSを含むものとする。概念辞書DB生成部606は、Webサーバ70に記憶されている情報や、Webサーバ70から配信されている情報に基づき、概念辞書DB1100を生成する。
ここで、概念辞書DB1100の一例を図3に示す。概念辞書DB1100は、単語/語句に対応して、属性であるカテゴリと、把握する概念語/語句とが対応づけて記憶されている。
例えば、単語として「高橋建」という固有名詞(人名)に対しては、カテゴリ(属性)として、基本情報、拡張情報(職業等)、口コミ、イニシャルとが記憶されている。そして、それぞれのカテゴリには対応する概念語/語句がそれぞれ記憶されている。
なお、図2では、概念辞書DB1100は情報処理装置10に記憶されているが、概念辞書生成サーバ60や、概念辞書サーバ(不図示)に記憶されてもよい。この場合、情報処理装置は、通信部130を介して必要に応じて情報を取得すればよい。
[1.2.6 情報処理装置]
情報処理装置10は、文章要約器として動作する装置である。情報処理装置10は、制御部100と、記憶部110と、通信部130とを備えることが可能である。
制御部100は、情報処理装置10の全体を制御するための機能部である。制御部100は、記憶部110に記憶されている各種プログラムを読み出して実行する1又は複数の演算装置であり、例えばCPU(Central Processing Unit)等により構成されている。
記憶部110は、情報処理装置10の動作に必要な各種プログラムや、各種データが記憶されている機能部である。記憶部110は、例えば、半導体メモリであるSSD(Solid State Drive)や、磁気ディスクであるHDD(Hard Disk Drive)等により構成されている。
記憶部110は、データ記憶領域112と、アプリケーション記憶領域114と、の記憶領域が確保されており、併せてミドルウェア116と、OS(オペレーティングシステム)118とが記憶されている。
図2に示している情報処理装置10の機能部は、アプリケーション記憶領域114にプログラムとしてインストールされてもよい。また、ミドルウェア116として提供されてもよいし、OS(オペレーティングシステム)118の機能として提供されてもよい。また、OS118は、各種装置を利用するためのデバイスドライバを更に有していてもよい。
また、データ記憶領域112は、各サーバから受信された情報や、制御部100で処理した情報が記憶される領域である。
(情報処理装置の動作)
つづいて、情報処理装置10の動作について、図2と、図6の動作フローを参照して説明する。図6の動作フローは、本実施形態における動作を説明するための図であり、主に情報処理装置10の動作を説明するものである。
まず、前提として、対話サーバ30は、記事サーバ40から記事を取得し、処理IDと入力文を生成する(S102)。ここで、処理IDは、入力文を特定するための識別情報であり、自動的に付与されてもよいし、任意に指定してもよい。ここで、入力文とは、1文であってもよいし、複数の文が含まれる段落であってもよい。また、1つの記事を1つの入力文としてもよい。
次に、情報処理装置10の文送受信部1010(制御部100)は、通信部130を介して対話サーバ30から処理ID及び入力文を受信する(S104)。なお、文送受信部1010は、併せてユーザ識別子を受信してもよい。ユーザ識別子は、オプションであり、特定のユーザに向けてユーザ反応情報を用いて加工処理を行い場合に取得する。
文送受信部1010は、入力文を要約文生成部1020に出力する。また、文送受信部1010は、ユーザ識別子を要約文加工部1040に出力する。
要約文生成部1020は、文送受信部1010から入力文を受信し、適切に要約して加工前要約文を生成する(S106)。ここで、適切に要約をするとは、重要な情報を一通り漏らさずに加工することを示す。また、要約文生成部1020が入力文から要約文を生成する方法は、何れかの公知の方法を利用すればよい。要約文生成部1020は、加工前要約文を構文解析部1030と、要約文加工部1040とに出力する。
構文解析部1030は、加工前要約文の構文を解析する。具体的には、形態素解析/係り受け解析/格解析等を行い、構文解析結果を生成する(S108)。構文解析部1030が実行する構文解析の方法は、何れかの公知方法を利用すればよく、例えば日本語形態素解析システムであるMeCabや、係受け解析システムであるCaboCha、構文解析システムであるJUMAN++/KNPといったツールを利用可能である。
構文解析部1030により、加工前要約文が構文解析されることで、主語/述語/連用修飾語/連体修飾語等の連文節を特定する。なお、このとき、例えば格要素(名詞+格助詞)の分類として、格助詞により特定してもよい。
例えば、図7は、格要素の分類の一例を示した図である。図7(a)は連用修飾語を示す格助詞、図7(b)は連体修飾語を示す格助詞、図7(c)は主語(連用修飾語の一部)を示す格助詞を示している。このように、格助詞に注目することで、入力文(加工前要約文)の構文解析を行い、連文節を特定することができる。
構文解析部1030は、加工前要約文から生成された構文解析結果を、要約文加工部1040に出力する。
要約文加工部1040は、概念辞書DB1100に、加工前要約文に含まれる単語/語句に対応する概念語/語句を概念辞書DB1100から取得する(S110)。要約文加工部1040は、対象となる単語/語句として、名詞/動詞等全ての品詞の単語/語句に基づいて概念語/語句を取得してもよいし、主に名詞(固有名詞)に基づいて概念語/語句を取得してもよい。
ここで、本実施形態において、要約文加工部1040は、概念辞書DB1100から概念語/語句を取得しているが、例えば他の既存の概念辞書を利用してもよいし、外部サーバから取得してもよい。すなわち、要約文加工部1040が、問い合わせた単語/語句に関して、その概念語/語句を返すものであれば、他の装置/サーバであってもよい。
つづいて、要約文加工部1040は、文送受信部1010からユーザ識別子を受信している場合(S112;Yes)、ユーザ識別子に対応したユーザ反応情報をユーザ反応記録サーバ50から取得する(S114)。具体的には、要約文加工部1040は、ユーザ識別子に対応したユーザ反応情報があるかをユーザ反応記録サーバ50に問合せをする。そして、ユーザ反応記録サーバ50にユーザ反応情報がある場合は、ユーザ反応情報を取得する。
要約文加工部1040は、加工前要約文、構文解析結果、概念語/語句に基づいて、加工後要約文を生成する(S116)。以下、要約文加工部1040が、加工前要約文から、加工後要約文を生成する方法について説明する。
まず、要約文加工部1040は、加工後要約文を生成するためのアルゴリズムを選択する。アルゴリズムが選択されることにより、要約文加工部1040が実行する対象/処理パターンが決定される。
選択されるアルゴリズムの一例を、図8に示す。アルゴリズムは、S1〜S4の中から決定される。ここでS4は、ユーザ反応情報がある場合に、ユーザ反応情報を更に参照する場合のアルゴリズムである。
例えば、アルゴリズムS1の場合、「特定の対象/特定の処理パターンで固定」にて実行する。それに対して、アルゴリズムS2の場合、「全対象/全処理パターンからランダムに選択」し実行する。また、アルゴリズムS3の場合、「全対象/全処理パターンからラウンドロビンで選択」し実行する。
なお、この場合、要約文加工部1040は、図8のアルゴリズムをランダムに選択してもよい。また、最初はランダム系(例えば、アルゴリズムS2、S3)を選択しておき、ユーザの反応の傾向がみえてきてから、徐々にユーザ反応系(アルゴリズムS4)に移行するといった処理も可能である。
このような場合、広い範囲からユーザの反応のよい対象/処理パターンを絞り込んでいき、徐々にユーザが好むものへ適応していくことが可能となる。
ここで、それぞれのアルゴリズムが選択された場合の対象/処理パターンについて図9を参照して説明する。図9(a)は、対象について示した一例であり、図9(b)は、処理パターンについて示した一例である。
図9(a)に示すように、対象としては、加工対象として、概念語/語句に置き換える対象となるものを示している。ここでは、識別子T1「連用修飾語」、識別子T2「連体修飾語」、識別子T3「主語」、識別子T4「述語」が対象として示されている。なお、解りやすいように把握する概念語/語句の例を併せて記載している。
また、図9(b)に示すように、処理パターンは識別子P1「対象に含まれる単語/語句を、上位概念の単語/語句に置き換える(抽象化)」、識別子P2「対象に含まれる固有名詞を、「代名詞」 or 「指示詞+普通名詞」に置き換える(抽象化)」、識別子P3「対象を、削除する」といった処理パターンが示されている。
また、概念語/語句が複数存在する場合、図8で示した決定アルゴリズムと同様に、「概念語/語句決定アルゴリズム」を用いて概念語/語句を決定する。例えば、要約文加工部1040は、図3に示した概念語/語句のカテゴリ「基本情報」「拡張情報(職業等)」「口コミ」「イニシャル」等をランダム又はラウンドロビンで回していく。このとき、要約文加工部1040は、ユーザの反応がよいカテゴリを絞り込んでいくことで、徐々にユーザの好むものへ適応させてもよい。
また、要約文加工部1040は、加工前要約文に含まれる単語/語句で、概念辞書DB1100から概念語/語句を取得できなかった場合には、単語/語句を削除する処理を実行するか、当該単語/語句の処理は行わない。
要約文加工部1040は、選択されたアルゴリズムに基づいて対象/処理パターンや、概念語/語句を決定し、加工前要約文から加工後要約文を生成する。また、要約文加工部1040は、生成した加工後要約文を、文送受信部1010に出力する。
文送受信部1010は、処理ID、加工後要約文を対話サーバ30に出力する(S118)。なお、文送受信部1010は、ユーザ識別子を受信している場合、併せてユーザ識別子を送信してもよい。このとき、対話サーバ30が、処理IDと、ユーザ識別子とを対応して管理している場合、ユーザ識別子を送信しなくてもよい。
[1.3 動作例]
情報処理装置10が、上述した実施形態の処理を実行することで、加工前要約文から加工後要約文を生成する動作例について図10を参照して説明する。
例えば、対象がT3の場合、処理パターンとして「P1」が選択されたとする。この場合、加工前要約文は「東京X遊園地で/ハロウィンパーティが/開かれている/らしいよ」となっている。
情報処理装置10は、主語「ハロウィンパーティ」を、概念語/語句である「イベント」に置換している。すなわち、加工後要約文は、「東京X遊園地で/イベントが/開かれている/らしいよ」となり、対話サーバ30を介して端末装置20から音声出力される。
この場合、ユーザは、何のイベントが具体的にわからない。そこで、ユーザは「何のイベント?」と、端末装置20に話しかける。これにより、端末装置20から対話サーバ30に送信される。
対話サーバ30は、加工前要約文から、置換前の「ハロウィンパーティ」を取得し、端末装置20から「ハロウィンパーティらしいよ」と音声出力してもよい。このように、一部の情報が概念語/語句に置換されることから、ユーザから新たな反応が期待できる。
なお、このために、情報処理装置10は、加工前要約文を、対話サーバ30に送信してもよいし、新たに置換前の語句を送信してもよい。また、対話サーバ30は、ユーザからの質問に対して、情報処理装置10に回答を問い合わせてもよい。
また、図10では、日本語により説明を行っているが、例えば他の言語において適用可能なことは勿論である。例えば、図11は、英文や、中国語において適用される場合の動作例について説明している。
例えば、英語、中国語(簡体字)、中国語(繁体字)において、加工前要約文から加工後要約文を生成した場合の動作例である。このように、各言語に対応して、構文解析を行い、要約文を生成可能であれば実現可能である。なお、概念辞書DBについても、各言語に対応したものを利用できればよい。
[2.第2実施形態]
第2実施形態を説明する。第2実施形態は、第1実施形態とシステム1において、他の処理や、対象となる記事を限定することにより、より効果的な要約文を作成する実施形態である。
なお、第1実施形態と機能・処理と共通の部分は説明を省略し、異なる部分についてのみ説明する。第2実施形態では、例えば以下のような動作を行う。
[2.1 処理パターンを固有名詞に限定する]
加工処理の内容として、例えば、対象に含まれる単語/語句を固有名詞に限定する。例えば、図9で示した処理パターンにおいて、要約文加工部040は、対象に含まれる単語を固有名詞の場合に、当該固有名詞に対応する概念語/語句に置換する処理を実行する。
一般的に、要約文において固有名詞が概念語/語句に置き換わることにより、ユーザは「なんの?」「どこで?」といった次の文章を問いかけるといった反応が期待できることが多い。また、要約文加工部1040は、固有名詞に処理を限定することで、処理を高速化できるといった効果も想定される。
この場合、構文解析部1030は、加工前要約文から固有名詞を抽出し、構文解析結果として要約文加工部1040に出力すればよい。
また、情報処理装置10が固有辞書DBを記憶したり、他のサーバにある固有辞書DBを参照したりすることにより、要約文加工部1040が、加工前要約文から固有名詞を抽出してもよい。
[2.2 ニュースキュレーションサービス/サイトの提供]
情報処理装置10が出力する加工後要約文を利用して、ニュースキュレーションサービス/サイト(以下、「ニュースキュレーションサービス等」という)を提供することが可能となる。
例えば、情報処理装置10が、要約文を作成するために取得する記事サーバ40としてニュースサイトに特定する。これにより、ニュースキュレーションサービス等を実現できたり、外部のニュースキュレーションサービス等向けの要約文を提供したりすることが可能となる。
この場合、制御部100は、要約文加工部1040が生成した加工後要約文に加えて、元の記事となるリンクが記載された文字/WEBページを含む情報をユーザに提供する。ユーザは、加工後要約文の内容から、より詳しい情報を得ようとした場合に、リンクを選択することになる。
すなわち、ユーザはより詳しい情報を得ようとした場合は、本実施形態のサービスを経由してニュースサイトを訪れることとなる。
具体的には、制御部100(文送受信部1010)が、通信部130を介して、ニュースサイトからニュースの記事から入力文を取得する。このとき、対話サーバ30を介してもよいし、直接記事サーバ40から取得してもよい。
そして、取得された入力文から要約文が生成される。まず、要約文生成部1020は、入力文から加工前要約文を生成する。要約文加工部1040は、加工前要約文から特定の単語/語句を概念語/語句に置換したり、特定の単語/語句を削除したりして、加工後要約文を生成する。ニュースキュレーションサービスは、生成された加工後要約文を利用してサービスを提供する。
これにより、ユーザがより詳しい情報を知ろうとした場合、上述したサービスを経由してニュースサイトを訪れる頻度が増えると考えられる。これにより、例えばユーザがどのような記事に興味を持っているかを履歴、ユーザ反応情報として記憶することができる。このユーザ反応情報を利用することにより、ユーザが興味を持つ記事の内容や、ジャンル、対象者や対象となる物、事象を認識することができる。この認識結果を利用することにより、ユーザに適したキュレーション(記事のレコメンド)を行うことが期待できる。
また、ニュースサイトを訪れるときに、本サービスを経由してアクセスすることから、例えばニュースサイトから得られるアフィリエイト収入が増加するといったことも期待できる。
[3.第3実施形態]
第3実施形態を説明する。第3実施形態は、加工前要約文から、加工後要約文を生成するときに、ユーザの反応を利用してより適切な要約文を生成する実施形態である。
本実施形態では、要約文加工部1040は、入力されたパラメータ(特徴量)を利用することにより、加工後要約文を生成する処理を決定する。
なお、要約文加工部1040は、加工後要約文を生成する処理を決定するとき、ユーザの反応率に基づいてフラグを利用して決定してもよいし、機械学習を利用して決定してもよい。また、機械学習のアルゴリズムとしては、決定木学習、帰納論理プログラミング、クラスタリング、強化学習、ベイジアンネットワーク、ニューラルネットワークといった何れかの手法を利用すればよい。
ここで、全体の処理結果(加工前要約文及び加工後要約文)に対して、特徴量として処理パターンを決定する方法について説明する。
図12は、処理パターンを決定するときに入力されるパラメータの一例である。例えば、概念語/語句に置き換える対象クラスと、実際に置き換えるときの処理を示した処理クラスと、置き換える元となる単語/語句の格要素を示す格要素クラスと、当該置き換える元となる単語/語句の述語態を示す述語態クラスとが示されている。
また、図13は、このときの処理前(加工前要約文)と、処理後(加工後要約文)と示している。
これらのパラメータ、処理前/処理後を特徴量として機械学習を行う。このとき、教師データとして、ユーザの反応率を利用する。
ユーザの反応率は、反応数/発話数で求めることが可能である。発話数は、特定又は複数のユーザに向けて処理後(加工後要約文)を発話した回数である。また、反応数は、発話を受けて特定又は複数のユーザの反応(受話)があった回数である。
そして、反応率が高いパターンが正解として、機械学習を行うことにより、より適切な加工後要約文を生成することが可能となる。
図14、上述した教師データと、全体の処理結果と、処理パターンとを模式的に示した図である。また、図15は、更にユーザ識別子が加わることにより、ユーザ毎に反応を利用したものである。これらの図では、図13の要約文について処理を行った場合の動作例が示されている。
例えば、「東京遊園地でハロウィンパーティが開かれている」という処理前の文章について、
(処理ID1)「事」である「ハロウィンパーティ」を上位概念語/語句に置換した「東京遊園地でイベントが開かれている」
(処理ID3)「場所」である「東京遊園地」を削除した「ハロウィンパーティが開かれている」
(処理ID6)「場所」である「東京遊園地」を指示語に置換し、「事」である「ハロウィンパーティ」を上位概念語/語句に置換した「あとテーマパークでイベントが開かれている」
と3つの処理が行われている。
この場合、処理ID1では、ユーザの反応率は「0.67」であるが、処理ID3及び処理ID6はユーザの反応率は「0」である。したがって、次回「事」「物」が含まれている加工前要約文の場合、処理ID1で加工後要約文を生成することが適切であることを学習することができる。
なお、上述した実施形態では機械学習を利用しているが、例えば多変量解析により決定してもよい。すなわち、要約文加工部1040は、複数のパラメータを入力した場合の出力結果の中から、数値がよいものを利用するように重みをつければよい。
[4.変形例]
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も特許請求の範囲に含まれる。
また、上述した実施形態では、対話エンジン(対話サーバ30)と通信をし、入力文を受信/加工後要約文を送信する情報処理装置について説明をした。しかし、対話エンジン、情報処理装置として必ずしも提供される必要はない。
例えば、これらの機能が、対話型端末装置、ロボット等の装置の一機能(モジュール)として組み込まれてもよい。例えば、当該機能を関数(APIコール)によって、呼出して実行することで、加工処理を実行してもよい。
すなわち、情報処理装置で実現された文章要約器を、ロボット、家電、カーナビゲーション、ウェアラブル端末、医療機器といった装置に組み込まれてもよい。また、併せて対話エンジンが組み込まれてもよい。
また、実施形態において各装置で動作するプログラムは、上述した実施形態の機能を実現するように、CPU等の演算装置を制御するプログラム(コンピュータを機能させるプログラム)である。そして、これら装置で取り扱われる情報は、その処理時に一時的に一時記憶装置(例えば、RAM)に蓄積され、その後、各種ROMやHDD、SSDの記憶装置に格納され、必要に応じてCPUによって読み出し、修正・書き込みが行なわれる。
また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。この場合、サーバコンピュータの記憶装置も本発明に含まれるのは勿論である。
1 システム
10 情報処理装置
100 制御部
110 記憶部
112 データ記憶領域
114 アプリケーション記憶領域
116 ミドルウェア
118 OS
130 通信部
20 端末装置
30 対話サーバ
40 記事サーバ
50 ユーザ反応記録サーバ
60 辞書概念サーバ
70 Webサーバ

Claims (9)

  1. 通信部と、制御部と、を有する情報処理装置において、
    前記制御部は、
    前記通信部を介して取得された文から加工前要約文を生成し、
    前記加工前要約文の構文解析を行い、
    前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得し、
    前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する、
    ことを特徴とする情報処理装置。
  2. 語句に対応する概念語句を記憶する記憶部を更に有し、
    前記制御部は、前記語句に対応する概念語句を、前記記憶部に記憶された概念辞書から取得することを特徴とする請求項1に記載の情報処理装置。
  3. 前記制御部は、前記生成処理として、
    前記加工前要約文に含まれる語句の中から対象となる語句を決定し、
    決定された語句に対して所定の処理パターンを実行することにより、前記加工後要約文を生成する、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記処理パターンは、
    前記対象となる語句を上位概念の概念語句に置き換える処理、前記対象となる語句が固有名詞の場合に代名詞又は指示詞と普通名詞とに置き換える処理、前記対象となる語句を削除する処理の何れかの処理パターンであることを特徴とする請求項3に記載の情報処理装置。
  5. 前記制御部は、
    ユーザの反応情報であるユーザ反応情報を更に取得し、
    前記加工前要約文と、前記構文解析を行った結果と、前記概念語句と、前記ユーザ反応情報とから、加工後要約文を生成する生成処理を実行することを特徴とする請求項1から4の何れか一項に記載の情報処理装置。
  6. 前記制御部は、機械学習により、加工前要約文から加工後要約文を生成することを特徴とする請求項1から5の何れか一項に記載の情報処理装置。
  7. 前記語句には、単語を含むことを特徴とする請求項1から6の何れか一項に記載の情報処理装置。
  8. 通信部を有するコンピュータに、
    前記通信部を介して取得された文から加工前要約文を生成する機能と、
    前記加工前要約文の構文解析を行う機能と、
    前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得する機能と、
    前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する機能と、
    を実現することを特徴とするプログラム。
  9. 記事サーバと、第1通信部と第1制御部とを有する対話サーバと、第2通信部と、第2制御部とを有する情報処理装置とが接続されるシステムにおいて、
    前記対話サーバの第1制御部は、前記第1通信部を介して前記記事サーバから入力文を取得し、
    前記情報処理装置の第2制御部は、
    前記第2通信部を介して前記対話サーバから取得された文から加工前要約文を生成し、
    前記加工前要約文の構文解析を行い、
    前記加工前要約文に含まれる語句に対応する概念語句を概念辞書から取得し、
    前記加工前要約文と、前記構文解析を行った結果と、前記概念語句とから、加工後要約文を生成する生成処理を実行する、
    ことを特徴とするシステム。
JP2018149175A 2018-08-08 2018-08-08 情報処理装置、プログラム及びシステム Pending JP2020024598A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018149175A JP2020024598A (ja) 2018-08-08 2018-08-08 情報処理装置、プログラム及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018149175A JP2020024598A (ja) 2018-08-08 2018-08-08 情報処理装置、プログラム及びシステム

Publications (1)

Publication Number Publication Date
JP2020024598A true JP2020024598A (ja) 2020-02-13

Family

ID=69619449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018149175A Pending JP2020024598A (ja) 2018-08-08 2018-08-08 情報処理装置、プログラム及びシステム

Country Status (1)

Country Link
JP (1) JP2020024598A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214268A (ja) * 1997-01-29 1998-08-11 Omron Corp 文書検索方法および装置
JP2001101228A (ja) * 1999-10-01 2001-04-13 Fuji Xerox Co Ltd 文書要約装置、文書要約方法及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214268A (ja) * 1997-01-29 1998-08-11 Omron Corp 文書検索方法および装置
JP2001101228A (ja) * 1999-10-01 2001-04-13 Fuji Xerox Co Ltd 文書要約装置、文書要約方法及び記録媒体

Similar Documents

Publication Publication Date Title
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US11907237B2 (en) Gathering and contributing content across diverse sources
US20210165955A1 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US20180232362A1 (en) Method and system relating to sentiment analysis of electronic content
US20190272269A1 (en) Method and system of classification in a natural language user interface
US9009025B1 (en) Context-based utterance recognition
WO2020136520A1 (en) Artificial intelligence augmented document capture and processing systems and methods
CN102779114B (zh) 利用自动规则生成的非结构化数据支持
US9325648B2 (en) Message subscription based on message aggregate characteristics
KR20200006107A (ko) 다수의 코퍼스들로부터 응답 정보 획득
US9348811B2 (en) Obtaining data from electronic documents
US20170011114A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20210141820A1 (en) Omnichannel virtual assistant using artificial intelligence
US20070288837A1 (en) System and method for providing content management via web-based forms
KR20220025118A (ko) 개인 데이터 보호를 위해 자동 어시스턴트와 인간 대 컴퓨터 대화에 대해 분산 상태 머신을 사용
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
KR20240020166A (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버
CN110832444A (zh) 用户界面声音发出活动分类
JP2020024598A (ja) 情報処理装置、プログラム及びシステム
Grover et al. A framework for text mining services
JP2009151541A (ja) 検索システムにおける最適情報の提示方法
JP2003296327A (ja) 翻訳サーバ、ジャンル別オンライン機械翻訳方法、およびそのプログラム
US20210109960A1 (en) Electronic apparatus and controlling method thereof
Sudhana Contextual diversity and rule-based adaptive e-learning system scheme

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221122