JP6650901B2 - 発話文判定装置、方法、及びプログラム - Google Patents

発話文判定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6650901B2
JP6650901B2 JP2017057731A JP2017057731A JP6650901B2 JP 6650901 B2 JP6650901 B2 JP 6650901B2 JP 2017057731 A JP2017057731 A JP 2017057731A JP 2017057731 A JP2017057731 A JP 2017057731A JP 6650901 B2 JP6650901 B2 JP 6650901B2
Authority
JP
Japan
Prior art keywords
expression
label
inappropriate
predicate
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017057731A
Other languages
English (en)
Other versions
JP2018160159A (ja
Inventor
のぞみ 小林
のぞみ 小林
齋藤 邦子
邦子 齋藤
東中 竜一郎
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017057731A priority Critical patent/JP6650901B2/ja
Publication of JP2018160159A publication Critical patent/JP2018160159A/ja
Application granted granted Critical
Publication of JP6650901B2 publication Critical patent/JP6650901B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、発話文判定装置、方法、及びプログラムに係り、特に、システムの発話として不適切な発話を判定するための発話文判定装置、方法、及びプログラムに関する。
大量のユーザの発話文から自動的に発話候補文を獲得する研究として、たとえば非特許文献1や特許文献1がある。これらは発話が日本語として正しいかどうかを判定することで、質の良い発話文を抽出する方法である。
別の関連研究として、ヘイトスピーチなどの”abusive language”を検出する研究に、例えば非特許文献2がある。これは、ユーザコメントがabusiveかcleanかを、教師有り機械学習の枠組みで判定するものである。
特許第5676683号公報
稲葉通将,神園彩香,高橋健一,Twitterを用いた非タスク指向型対話システムのための発話候補文獲得,人工知能学会論文誌Vol.29 No.1 2014. Chikashi Nobata, Joel Tetreault, Achint Thomas, Yashar Mehdad, Yi Chang, Abusive Language Detection in Online User Content. WWW2016
従来の手法は、上述したように日本語としての正しさを判定するものであり、システムの発話として不適切な発話をフィルタリングすることができない。例えば、「北方領土は日本のものだ」という発話は日本語として問題のない文であるが、聞く人によっては問題と感じる可能性があるためシステムの発話として適切ではない。
また、不適切なコメントを判定する関連研究では、ユーザコメントがabusiveかcleanかの2値で判定しているが、ある発話を不適切とすべきか否かは、システムのキャラクタ設定次第であり、例えば、罵倒するキャラクタであれば罵倒表現はOK(ただしアダルトはNG)など、キャラクタによって異なるため、2値分類ではキャラクタごとに正解データおよび判定モデルを作成する必要があり、さまざまなキャラクタに応用するにはコストが高い。
本発明は、上記問題点を解決するために成されたものであり、システムの発話として不適切な発話をより適切に判定することができる発話文判定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る発話文判定装置は、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するテキスト解析部と、前記テキスト解析情報と、前記発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、前記発話から、表現及び前記表現のクラスを含む手かがり表現情報を抽出する手がかり表現抽出部と、前記テキスト解析情報に基づいて、前記発話の文体を示す文体ラベルを決定する文体ラベル決定部と、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な話題語表現を抽出し、前記話題語表現のクラスに基づいて、不適切話題語ラベルを決定する不適切話題語ラベル決定部と、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定し、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定する不適切発話ラベル決定部と、を含んで構成されている。
また、第1の発明に係る発話文判定装置において、前記辞書類は、不適切な表現となりうる体言及び前記体言のクラスを含むnegative体言辞書、不適切な表現となりうる対象表現及び前記対象表現のクラスを含む対象表現辞書、並びに不適切な表現となりうる用言及び前記用言のクラスを含む用言辞書からなり、前記規則類は、不適切な表現となりうる対象表現を抽出し、クラスを付与するための対象抽出規則、並びに不適切な表現となりうる述語表現を抽出し、クラスを付与するための述語抽出規則からなるようにしてもよい。
また、第1の発明に係る発話文判定装置において、前記不適切発話ラベル決定部は、前記手がかり表現情報から得られる、前記発話に含まれる前記述語表現のクラスと、前記述語表現に対応する格要素のクラスとに基づいて、不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定する不適切述語ラベル決定部と、前記手がかり表現情報から得られる、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する対象ラベル決定部と、前記不適切述語ラベルと、前記対象ラベルとを連結して前記不適切発話ラベルとする不適切発話ラベル出力部と、を含むようにしてもよい。
第2の発明に係る発話文判定方法は、テキスト解析部が、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するステップと、手がかり表現抽出部が、前記テキスト解析情報と、前記発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、前記発話から、表現及び前記表現のクラスを含む手かがり表現情報を抽出するステップと、文体ラベル決定部が、前記テキスト解析情報に基づいて、前記発話の文体を示す文体ラベルを決定するステップと、不適切話題語ラベル決定部が、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な話題語表現を抽出し、前記話題語表現のクラスに基づいて、不適切話題語ラベルを決定するステップと、不適切発話ラベル決定部が、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定し、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る発話文判定方法において、前記辞書類は、不適切な表現となりうる体言及び前記体言のクラスを含むnegative体言辞書、対象表現及び前記対象表現のクラスを含む対象表現辞書、並びに用言及び前記用言のクラスを含む用言辞書からなり、前記規則類は、不適切な表現となりうる対象表現を抽出し、クラスを付与するための対象抽出規則、並びに不適切な表現となりうる述語表現を抽出し、クラスを付与するための述語抽出規則からなるようにしてもよい。
また、第2の発明に係る発話文判定方法において、前記不適切発話ラベル決定部が決定するステップは、不適切述語ラベル決定部が、前記手がかり表現情報から得られる、前記発話に含まれる前記述語表現のクラスと、前記述語表現に対応する格要素のクラスとに基づいて、不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定するステップと、対象ラベル決定部が、前記手がかり表現情報から得られる、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定するステップと、不適切発話ラベル出力部が、前記不適切述語ラベルと、前記対象ラベルとを連結して前記不適切発話ラベルとするステップと、を含むようにしてもよい。
また、第3の発明に係るプログラムは、コンピュータを、第1の発明に係る発話文判定装置の各部として機能させるためのプログラムである。
本発明の発話文判定装置、方法、及びプログラムによれば、発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類に基づいて、発話から、表現及び表現のクラスを含む手かがり表現情報を抽出し、発話から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定し、発話から不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定し、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、決定した不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとして決定することにより、システムの発話として不適切な発話をより適切に判定することができる、という効果が得られる。
不適切話題語ラベルの一例を示す図である。 不適切発話ラベルの一例を示す図である。 文体ラベルの一例を示す図である。 本発明の実施の形態に係る発話文判定装置の構成を示すブロック図である。 テキスト解析情報の一例を示す図である。 negative体言辞書の一例を示す図である。 対象表現辞書の一例を示す図である。 用言辞書の一例を示す図である。 対象抽出規則の一例を示す図である。 述語抽出規則の一例を示す図である。 述語表現のクラスの一例を示す図である。 本発明の実施の形態に係る発話文判定装置における発話文判定処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
本発明の実施の形態では、正解データを用いず、システムの発話として適切ではない発話に不適切を表すラベルを付与する手段により上記の問題を解決する。
本発明の実施の形態では、入力は発話文(テキスト)であり、出力は〈不適切話題語ラベル、不適切発話ラベル、文体ラベル〉である。各ラベルは空の場合もある。
以下、入出力の例をいくつか示す。
例1)
入力:T島はK国が不法占拠します
出力:〈POLITICAL_ISSUE,NEG_ACT /NATION,〉
例2)
入力:年寄りが口出しするな
出力:〈PSET,/PSET,PROH/IMP〉
例3)
入力:あれはきちがいだ
出力:〈,SWD,NOT_POLITE〉
不適切話題語ラベル、不適切発話ラベル、文体ラベルはあらかじめ人手で定義したラベルセットを使用する。本構成では図1に示す不適切話題語ラベル、図2に示す不適切発話ラベル、及び図3に示す文体ラベルを用いたが、他のラベルセットを定義して使用してもよい。
<本発明の実施の形態に係る発話文判定装置の構成>
次に、本発明の実施の形態に係る発話文判定装置の構成について説明する。図4に示すように、本発明の実施の形態に係る発話文判定装置100は、CPUと、RAMと、後述する発話文判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この発話文判定装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部48とを備えている。
入力部10は、発話の集合を受け付ける。
演算部20は、negative体言辞書21と、対象表現辞書22と、用言辞書23と、対象抽出規則24と、述語抽出規則25と、テキスト解析部30と、手がかり表現抽出部32と、文体ラベル決定部34と、不適切話題語ラベル決定部36と、不適切発話ラベル決定部40と、出力部48と、を含んで構成されている。
テキスト解析部30は、入力部10が受け付けた発話の集合の発話の各々について、発話を文単位に分割し、分割された文を形態素単位に分割することにより発話の各々についてのテキスト解析情報を生成する。分割された発話の発話文(テキスト)を入力とし、テキスト解析情報として、既知の技術である形態素解析・係り受け解析・固有表現抽出により、形態素情報(品詞、標準表記、読み等)、係り受け情報、固有表現情報を付与する。
図5には一例として「T島はK国が不法占拠します」という発話を受け付けた場合にテキスト解析部30が生成するテキスト解析情報を示した。図5に示すように、受け付けた発話を形態素単位に分割し、出現表記、品詞、及びシソーラス番号(例えば日本語語彙大系の番号)を含むテキスト解析情報が生成される。また、「T島」と「K国」が固有表現のクラス「LOCATION」として抽出される。固有表現の定義は参考文献1に従う。文節情報は「文節ID、係り先文節ID/係りタイプ、主辞形態素番号/機能語形態素番号」の情報を含む。
[参考文献1]:IREX(https://nlp.cs.nyu.edu/irex/index-j.html)
手がかり表現抽出部32は、テキスト解析部30で生成された発話の各々のテキスト解析情報と、発話の表現を抽出しクラスを付与するために予め作成された、negative体言辞書21、対象表現辞書22、用言辞書23、対象抽出規則24、及び述語抽出規則25とに基づいて、発話の各々から、表現及び表現のクラスを含む手かがり表現情報を抽出する。
negative体言辞書21は、図6に示すように、不適切な表現となりうる体言、体言の標準表記、及び体言のクラスを含む辞書である。
対象表現辞書22は、図7に示すように、対象表現、対象表現の標準表記、及び対象表現のクラスを含む辞書である。
用言辞書23は、図8に示すように、用言、用言の標準表記、及び用言のクラスを含む辞書である。
対象抽出規則24は、図9に示すように、不適切な表現となりうる対象表現を抽出し、クラスを付与するための規則である。なお、規則の記載について補足する。<>は一形態素を表す。コロン(:)の左は照合するフィールドを示し、右はフィールドの値を示す。スラッシュ(/)はand条件である。他は正規表現の記載に準ずる。
述語抽出規則25は、図10に示すように、不適切な表現となりうる述語表現を抽出し、クラスを付与するための規則である。
手がかり表現抽出部32の処理の流れを説明する。手がかり表現抽出部32では、まず、テキスト解析部30で解析された発話のテキスト解析情報を入力とし、解析済み発話文の形態素列に対して、negative体言辞書21、対象表現辞書22、及び用言辞書23の3つの辞書を適用し、辞書に存在する表現があれば、その表現と標準表記、クラス情報を、抽出元の辞書情報とともに手がかり表現情報として抽出する。辞書情報を付与することで、抽出された表現がnegative体言、対象表現、用言のいずれであるかが判別できる。また、辞書だけではなく、対象抽出規則24の正規表現に基づく規則を用いて該当表現を抽出してもよい。例えば、図9の規則Aを適用して「地名+人」をETHNICとして抽出する。
次に、抽出した手がかり表現情報と述語抽出規則25を用いて、述語表現とそのクラス(述語クラス)を抽出する。図10に示す規則Aは、用言辞書23を適用して抽出されたクラス「NEG_STATE」に当てはまる形態素の後に「し」という表記があった場合に、当該表記を述語表現のクラス「NEG_ACT」として抽出し、手がかり表現情報とするものである。例えば「占拠しています」という文の場合、「占拠し」が述語表現、NEG_ACTが述語表現のクラスとなる。
図10に示す規則Bは、「○○したい/○○してほしい」などの願望を表す述語表現を抽出し、述語表現のクラス「ACT_WANT」を付与する規則の例であり、規則Cは「壊したい」のようにnegativeな行為に対する願望を表す述語表現を抽出し、述語表現のクラス「NEG_WANT」を付与する規則の例である。
また、用言辞書23によって抽出され、かつ、述語抽出規則25に当てはまらなかった表現は、用言辞書23によって抽出された表現とクラスが、述語表現及び述語表現のクラスとなる。また、negative体言中の「ADLT」および「SWD」に該当する表現も、述語表現及び述語表現のクラスとして扱う。
文体ラベル決定部34は、テキスト解析部30で生成された発話の各々のテキスト解析情報に基づいて、発話の各々の文体を示す文体ラベルを決定する。ここでは、発話のテキスト解析情報の文末の形態素情報を手がかりに文体ラベルを決定する。まず、発話文の末尾の内容語が動詞の場合、後続する形態素に「べき」であれば、文体ラベルは「DEO」と判定する。それ以外の場合、発話文の末尾の内容語が「動詞連用形」か、「動詞基本形」に「な」が後続する場合に、文体ラベルは「PROH/IMP」と判定する。それ以外の場合、入力発話文が「です」「でし(た|て|ょ)」「ます」「まし(た|て|ょ)」「ませ($|ん)」のいずれにもマッチしなければ文体ラベルは「NOT_POLITE」と判定する。
不適切話題語ラベル決定部36は、テキスト解析部30で生成された発話の各々のテキスト解析情報と、手かがり表現抽出部32で発話の各々について抽出された手かがり表現情報とに基づいて、発話の各々から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定する。
不適切話題語ラベル決定部36では、まず、発話のテキスト解析情報から、その発話の話題となっている語(話題語)を同定する。話題語の同定は助詞を手がかりに行うことができる。例えば助詞「は」「が」「って」「なんて」を伴う名詞句相当を抽出することで実現できる。該当する語が存在しない場合、話題語は空とする。
前述の例「T島はK国が不法占拠します」の場合、連用助詞「は」を伴う名詞である「T島」が話題語として抽出される。なお、ここでは規則による話題語抽出について述べたが、一般的な固有表現抽出手法(例えば非特許文献3)で用いられるようなチャンキングの手法(CRFなど)を用いて実現してもよい。
[非特許文献3]:笹野遼平,黒橋禎夫,大域的情報を用いた日本語固有表現認識,情報処理学会論文誌Vol.49 No.11, 2008.
不適切話題語ラベル決定部36では、次に、抽出された話題語がnegative体言もしくは対象表現であれば、その表現のクラスを不適切話題語ラベルとして出力する。それ以外の場合、不適切話題語ラベルは空となる。
不適切発話ラベル決定部40は、テキスト解析部30で生成された発話の各々のテキスト解析情報と、手かがり表現抽出部32で発話の各々について抽出された手かがり表現情報とに基づいて、発話の各々から不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定し、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、決定した不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとして決定する。
不適切発話ラベル決定部40は、不適切述語ラベル決定部42と、対象ラベル決定部44と、不適切発話ラベル出力部46とを含んで構成されている。
不適切発話ラベル決定部40では、まず、手がかり表現情報に述語表現が存在するか否かを判定し、存在すれば以下の不適切述語ラベル決定部42、及び対象ラベル決定部44の処理を行い、存在しなければ不適切発話ラベル出力部46から不適切発話ラベルは空として出力する。述語表現が複数存在する場合、末尾の述語表現を対象として処理を実施する。述語の格要素は、テキスト解析情報の係り受け結果を用いて、「が」「を」等の格助詞もしくは連用助詞を伴って述語に係る表現を抽出することで得られる。
不適切述語ラベル決定部42は、以下のように、手がかり表現情報から得られる、発話の各々に含まれる述語表現のクラスと、述語表現に対応する格要素のクラスとに基づいて、発話の各々について、不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定する。
述語表現のクラスが”(PLUS|PROS)”にマッチする場合、「ガ(ハ)格」にnegative体言が存在すれば、不適切述語ラベルを”NEG_STATE”とする。
例えば、「戦争が増えます」という発話であれば、格要素と述語表現は、「[ガ格:N_N]戦争、[述語表現のクラス:PLUS]:増える」であるので、不適切述語ラベルを”NEG_STATE”とする。
述語表現のクラスが”POS_EVAL”であり、「ガ(ハ)格」にnegative体言が存在すれば、不適切述語ラベルを”POS_EVAL_NEG”とする。
例えば、「戦争は楽しい」という発話であれば、格要素と述語表現は、「[ハ格:N_N]戦争、[述語表現のクラス:POS_EVAL]:楽しい」であるので、不適切述語ラベルを”POS_EVAL_NEG”とする。
述語表現のクラスが”WANT_ACT”であり「ヲ格」もしくは「ニ格」にnegative体言が存在すれば不適切述語ラベルを”NEG_WANT”とする。
例えば、「戦争をしたい」という発話であれば、格要素と述語表現は、「[ヲ格:N_N]戦争、[述語表現のクラス:WANT_ACT]:したい」であるので、不適切述語ラベルを”NEG_WANT”とする。
述語表現のクラスが上記以外の場合、述語表現のクラスを不適切述語ラベルとする。ただし述語表現のクラスがPLUS、MINUSのいずれかであれば不適述語ラベルは空とする。
例えば、「この馬鹿が」という発話であれば、[不適切述語ラベル:SWD]:馬鹿、となる。一方、「おなかが減ります」という発話であれば、[不適切述語ラベル:空]となる。
対象ラベル決定部44は、以下のように、手がかり表現情報から得られる、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する。
対象ラベル決定部44では、以下の処理を「ガ格」「ハ格」「ヲ格」「ニ格」「デ格」「その他」の順で実施し、対象ラベルが決まった段階で処理を停止する。
まず、述語表現の「ガ格」がnegative体言、対象表現、固有表現のいずれかであればその格要素のクラスを対象ラベルとする。同じ表記に複数のクラスが存在した場合はnegative体言>対象表現>固有表現の優先順位とする。
例えば「T島はK国が不法占拠している」という発話であれば、対象ラベルと表記は[NATION(K国)]となる。
ガ格が存在しない、もしくは対象ラベルが決まらなかった場合、同様の処理を「ハ格」「ヲ格」「ニ格」「デ格」「その他」の順で実施する。全ての格をチェックしても対象ラベルが決まらなかった場合、対象ラベルは空となる。例外として、不適切述語ラベル決定部42で決定された不適切述語ラベルが「NEG_WANT」の場合、「ハ格」に対してのみ処理を実施する。ガ格、ハ格のいずれかが存在したにも関わらず対象ラベルが決まらなかった場合、対象ラベルは空とし、ガ格、ハ格がいずれも存在しなかった場合、対象ラベルは「SELF」とする。
例えば、「A国を潰したい」という発話であれば、対象ラベルは[SELF]となる。一方、「B国はA国を潰したい」という発話であれば、対象ラベルは[NATION]となる。
不適切発話ラベル出力部46は、不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとする。ここでは、不適切述語ラベルと対象ラベルを‘/’でつないだものを不適切発話ラベルとして出力する。いずれも空の場合‘/’は出力しない。ただし、‘/’を出力するようにしてもよい。
例えば、「A国を潰したい」という発話であれば、[NEG_WANT/SELF]が不適切発話ラベルとなる。また、「B国はA国を潰したい」という発話であれば、[NEG_WANT/NATION]が不適切発話ラベルとなる。
また、不適切述語ラベルがPROS、CONS、又はPOS_EVALの場合は以下の処理を実施して不適切述語ラベルを書き換えた上で不適切発話ラベルを出力する。
対象ラベルがnegative体言もしくは対象表現由来の場合、不適切述語ラベルが、PROS、又はPOS_EVALであればPOS_EVALを不適切述語ラベルとし、不適切述語ラベルがCONSであればNEG_EVALを不適切述語ラベルとする。
上記に当てはまらない場合は、不適切述語ラベルは空とする。
例えば「主婦は楽ですね」という発話であれば、([対象ラベル:PSET(主婦)]、[不適切述語ラベル:POS_EVAL(楽)])であるので[POS_EVAL/PSET]が、不適切発話ラベルとなる。
「自転車は楽ですね」という発話であれば、([対象ラベル:なし]、[不適切述語ラベル:POS_EVAL(楽)])であるので、不適切述語ラベルを空とし、[空]が不適切発話ラベルとなる。
出力部48は、不適切話題語ラベル決定部36で決定された不適切話題語ラベル、不適切発話ラベル出力部46から出力された不適切発話ラベル、及び文体ラベル決定部34で決定された文体ラベルをあわせた最終的な結果を出力する。
例えば「T島はK国が不法占拠します」という発話であれば、〈POLITICAL_ISSUE,NEG_ACT/NATION,〉が出力となる。
<本発明の実施の形態に係る発話文判定装置の作用>
次に、本発明の実施の形態に係る発話文判定装置100の作用について説明する。入力部10において発話の集合を受け付けると、発話文判定装置100は、図12に示す発話文判定処理ルーチンを実行する。
まず、ステップS100では、入力部10が受け付けた発話の集合の発話の各々について、発話を文単位に分割し、分割された文を形態素単位に分割することにより発話の各々についてのテキスト解析情報を生成する。
次に、ステップS102では、ステップS100で生成された発話の各々のテキスト解析情報と、発話の表現を抽出しクラスを付与するために予め作成された、negative体言辞書21、対象表現辞書22、用言辞書23、対象抽出規則24、及び述語抽出規則25とに基づいて、発話の各々から、表現及び表現のクラスを含む手かがり表現情報を抽出する。
ステップS104では、ステップS100で生成された発話の各々のテキスト解析情報に基づいて、発話の各々の文体を示す文体ラベルを決定する。
ステップS106では、ステップS100で生成された発話の各々のテキスト解析情報と、ステップS102で発話の各々について抽出された手かがり表現情報とに基づいて、発話の各々から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定する。
ステップS108では、手がかり表現情報に述語表現が存在するか否かを判定し、存在すればステップS112へ移行し、存在しなければステップS110へ移行する。
ステップS110では、不適切発話ラベルは空として出力する。
ステップS112では、ステップS102で発話の各々について抽出された手がかり表現情報から得られる、発話の各々に含まれる述語表現のクラスと、述語表現に対応する格要素のクラスとに基づいて、発話の各々について、不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定する。
ステップS114では、ステップS102で発話の各々について抽出された手がかり表現情報から得られる、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する。
ステップS116では、発話の各々について、ステップS112で決定された不適切述語ラベルと、ステップS114で決定された対象ラベルとを連結して不適切発話ラベルとする。
ステップS118では、発話の各々について、ステップS106で決定された不適切話題語ラベル、不適切発話ラベル出力部46から出力された不適切発話ラベル、及び文体ラベル決定部34で決定された文体ラベルをあわせた最終的な結果を出力し、処理を終了する。
以上説明したように、本発明の実施の形態に係る発話文判定装置によれば、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するテキスト解析部と、テキスト解析情報と、発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、発話から、表現及び表現のクラスを含む手かがり表現情報を抽出し、テキスト解析情報に基づいて、発話の文体を示す文体ラベルを決定し、テキスト解析情報と、手かがり表現情報とに基づいて、発話から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定し、テキスト解析情報と、手かがり表現情報とに基づいて、発話から不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定し、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、決定した不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとして決定することにより、システムの発話として不適切な発話をより適切に判定することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、発話の表現を抽出しクラスを付与するため辞書類として、negative体言辞書21、対象表現辞書22、及び用言辞書23を、規則として、対象抽出規則24、及び述語抽出規則25を例として挙げたがこれに限定されるものではなく、他の辞書、及び他の規則を適用するようにしてもよい。
10 入力部
20 演算部
21 negative体言辞書
22 対象表現辞書
23 用言辞書
24 対象抽出規則
25 述語抽出規則
30 テキスト解析部
32 手がかり表現抽出部
34 文体ラベル決定部
36 不適切話題語ラベル決定部
40 不適切発話ラベル決定部
42 不適切述語ラベル決定部
44 対象ラベル決定部
46 不適切発話ラベル出力部
48 出力部
100 発話文判定装置

Claims (3)

  1. 所定の設定に応じ、適切ではない発話に不適切さの種別を表すラベルである、文体ラベル、不適切話題語ラベル、及び不適切発話ラベルを付与する発話文判定装置であって、
    入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するテキスト解析部と、
    前記テキスト解析情報から不適切な表現となりうる表現を抽出し、かつ、不適切さの手がかりとなるクラスを付与するために予め作成された辞書類及び規則類に基づいて、不適切な表現となりうる表現である所定の表現と述語表現とを含む表現群、及び不適切さの手がかりとなる、該表現群に含まれる前記所定の表現及び前記述語表現のそれぞれに対応するクラスを手かがり表現情報として抽出する手がかり表現抽出部と、
    前記テキスト解析情報に基づいて、前記発話の不適切な表現となりうる文体の種別を示す文体ラベルを決定する文体ラベル決定部と、
    前記テキスト解析情報に基づいて、前記発話の話題となっている語である話題語を同定し、前記話題語が不適切な表現となりうる所定の表現として前記手がかり表現情報に含まれる場合に、前記話題語に対応する前記手がかり表現情報のクラスを表すラベルを前記発話に含まれる不適切な話題の種別を示す不適切話題語ラベルとして決定する不適切話題語ラベル決定部と、
    前記手がかり表現情報に前記述語表現を含む場合に、該述語表現について、前記テキスト解析情報と、前記手がかり表現情報とに基づいて、前記発話に含まれる不適切な述語表現の種別を示す不適切述語ラベル、及び前記述語表現に対応する対象の種別を示す対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定する不適切発話ラベル決定部と、を含み、
    前記辞書類は、不適切な表現となりうる体言及び該体言のクラスの対からなるnegative体言辞書と、対象表現及び該対象表現のクラスの対からなる対象表現辞書とを含み、
    前記規則類は、前記手かがり表現情報として、前記所定の表現として不適切な表現となりうる対象表現を抽出し、不適切さの手がかりとなるクラスを付与するための対象抽出規則を含み、
    前記不適切発話ラベル決定部において、
    前記手がかり表現情報に含まれる前記述語表現について、前記テキスト解析情報を元に該述語表現に係る表現を抽出することで該述語表現に係る格要素を得て、
    前記不適切述語ラベルは、
    前記手がかり表現情報に含まれる前記述語表現のクラスが、肯定評価を表す述語、何かをプラスする述語、賛同を表す述語、及び願望を表す述語のいずれかを示すものであるか否かと、前記格要素の表現が前記negative体言辞書に含まれていた前記手がかり表現情報の前記所定の表現であるか否かと、の組み合わせについて定められた条件に従って決定し、
    前記対象ラベルは、
    前記手がかり表現情報に含まれる前記述語表現に係る表現である前記格要素が複数存在する場合には、格要素が何格であるかに基づいた優先順位に従って、前記述語表現に対応する前記対象ラベルを決定する、
    ことを特徴とする発話文判定装置。
  2. 所定の設定に応じ、適切ではない発話に不適切さの種別を表すラベルである、文体ラベル、不適切話題語ラベル、及び不適切発話ラベルを付与する発話文判定方法であって、
    テキスト解析部が、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するステップと、
    手がかり表現抽出部が、記テキスト解析情報から不適切な表現となりうる表現を抽出し、かつ、不適切さの手がかりとなるクラスを付与するために予め作成された辞書類及び規則類に基づいて、不適切な表現となりうる表現である所定の表現と述語表現とを含む表現群、及び不適切さの手がかりとなる、該表現群に含まれる前記所定の表現及び前記述語表現のそれぞれに対応するクラスを手かがり表現情報として抽出するステップと、
    文体ラベル決定部が、前記テキスト解析情報に基づいて、前記発話の不適切な表現となりうる文体の種別を示す文体ラベルを決定するステップと、
    不適切話題語ラベル決定部が、前記テキスト解析情報に基づいて、前記発話の話題となっている語である話題語を同定し、前記話題語が不適切な表現となりうる所定の表現として前記手がかり表現情報に含まれる場合に、前記話題語に対応する前記手がかり表現情報のクラスを表すラベルを前記発話に含まれる不適切な話題の種別を示す不適切話題語ラベルとして決定するステップと、
    不適切発話ラベル決定部が、前記手がかり表現情報に前記述語表現を含む場合に、該述語表現について、前記テキスト解析情報と、前記手がかり表現情報とに基づいて、前記発話に含まれる不適切な述語表現の種別を示す不適切述語ラベル、及び前記述語表現に対応する対象の種別を示す対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定するステップと、を含み、
    前記辞書類は、不適切な表現となりうる体言及び該体言のクラスの対からなるnegative体言辞書と、対象表現及び該対象表現のクラスの対からなる対象表現辞書とを含み、
    前記規則類は、前記手かがり表現情報として、所定の表現として不適切な表現となりうる対象表現を抽出し、不適切さの手がかりとなるクラスを付与するための対象抽出規則を含み、
    前記不適切発話ラベル決定部が処理するステップにおいて、
    前記手がかり表現情報に含まれる前記述語表現について、前記テキスト解析情報を元に該述語表現に係る表現を抽出することで該述語表現に係る格要素を得て、
    前記不適切述語ラベルは、
    前記手がかり表現情報に含まれる前記述語表現のクラスが、肯定評価を表す述語、何かをプラスする述語、賛同を表す述語、及び願望を表す述語のいずれかを示すものであるか否かと、前記格要素の表現が前記negative体言辞書に含まれていた前記手がかり表現情報の前記所定の表現であるか否かと、の組み合わせについて定められた条件に従って決定し、
    前記対象ラベルは、
    前記手がかり表現情報に含まれる前記述語表現に係る表現である前記格要素が複数存在する場合には、格要素が何格であるかに基づいた優先順位に従って、前記述語表現に対応する前記対象ラベルを決定する、
    ことを特徴とする
    発話文判定方法。
  3. コンピュータを、請求項1に記載の発話文判定装置の各部として機能させるためのプログラム。
JP2017057731A 2017-03-23 2017-03-23 発話文判定装置、方法、及びプログラム Active JP6650901B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017057731A JP6650901B2 (ja) 2017-03-23 2017-03-23 発話文判定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017057731A JP6650901B2 (ja) 2017-03-23 2017-03-23 発話文判定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018160159A JP2018160159A (ja) 2018-10-11
JP6650901B2 true JP6650901B2 (ja) 2020-02-19

Family

ID=63796690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017057731A Active JP6650901B2 (ja) 2017-03-23 2017-03-23 発話文判定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6650901B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102229032B1 (ko) * 2020-06-23 2021-03-17 주식회사 우리홈쇼핑 방송 적합 여부에 대한 알림을 제공하는 장치 및 방법
JP2024011901A (ja) * 2022-07-15 2024-01-25 国立研究開発法人情報通信研究機構 発話フィルタリング装置、対話システム、文脈モデルの学習データの生成装置及びコンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0477857A (ja) * 1990-07-13 1992-03-11 Nippon Telegr & Teleph Corp <Ntt> 不適切表現検出装置
JP5683428B2 (ja) * 2011-10-12 2015-03-11 株式会社野村総合研究所 文書管理装置
JP6533048B2 (ja) * 2014-10-29 2019-06-19 株式会社野村総合研究所 コンプライアンスチェックシステムおよびコンプライアンスチェックプログラム

Also Published As

Publication number Publication date
JP2018160159A (ja) 2018-10-11

Similar Documents

Publication Publication Date Title
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
WO2016051551A1 (ja) 文章生成システム
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
KR102188739B1 (ko) 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
Megyesi Shallow Parsing with PoS Taggers and Linguistic Features.
Aqlan et al. Arabic–Chinese neural machine translation: Romanized Arabic as subword unit for Arabic-sourced translation
Fashwan et al. SHAKKIL: an automatic diacritization system for modern standard Arabic texts
Sibarani et al. A study of parsing process on natural language processing in bahasa Indonesia
Mohamed et al. Arabic Part of Speech Tagging.
Glass et al. A naive salience-based method for speaker identification in fiction books
JP6650901B2 (ja) 発話文判定装置、方法、及びプログラム
CN110134766B (zh) 一种面向中医古籍文献的分词方法和装置
Arikan et al. Detecting clitics related orthographic errors in Turkish
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Kapočiūtė-Dzikienė et al. Improving topic classification for highly inflective languages
Pal et al. Anaphora resolution in Hindi: Issues and challenges
AU2019253839A1 (en) Natural language processing based sign language generation
JP5882241B2 (ja) 質問応答用検索キーワード生成方法、装置、及びプログラム
Behera Odia parts of speech tagging corpora: suitability of statistical models
El-Taher et al. An Arabic CCG approach for determining constituent types from Arabic Treebank
JP2003330926A (ja) 翻訳方法、翻訳装置及び翻訳プログラム
KR20210012606A (ko) 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
JP3752535B2 (ja) 訳語選択装置、及び翻訳装置
JP2006243976A (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200121

R150 Certificate of patent or registration of utility model

Ref document number: 6650901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150