JP2018160159A - Uttered sentence determining device, method, and program - Google Patents

Uttered sentence determining device, method, and program Download PDF

Info

Publication number
JP2018160159A
JP2018160159A JP2017057731A JP2017057731A JP2018160159A JP 2018160159 A JP2018160159 A JP 2018160159A JP 2017057731 A JP2017057731 A JP 2017057731A JP 2017057731 A JP2017057731 A JP 2017057731A JP 2018160159 A JP2018160159 A JP 2018160159A
Authority
JP
Japan
Prior art keywords
expression
inappropriate
label
utterance
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017057731A
Other languages
Japanese (ja)
Other versions
JP6650901B2 (en
Inventor
のぞみ 小林
Nozomi Kobayashi
のぞみ 小林
齋藤 邦子
Kuniko Saito
邦子 齋藤
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017057731A priority Critical patent/JP6650901B2/en
Publication of JP2018160159A publication Critical patent/JP2018160159A/en
Application granted granted Critical
Publication of JP6650901B2 publication Critical patent/JP6650901B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an uttered sentence determining device that more properly determines a speech inadequate as a speech from a system.SOLUTION: In an arithmetic unit 20 of the uttered sentence determining device 100, a cue expression extracting unit 32 extracts, based on dictionaries and rules prepared in advance for extracting an expression of a speech and assigning a class thereto, an expression and cue expression information including a class of the expression from the speech. An inappropriate topic word label determining unit 36 extracts an inappropriate topic word expression from a speech, and determines an inappropriate topic word label based on the class of the topic word expression. An inappropriate speech label determining unit 40 extracts an inappropriate predicate expression from the speech, determines an inappropriate predicate label based on the class of the predicate expression, determines a target label based on the classes of case elements corresponding to the predicate expression, and links the determined inappropriate predicate label and target label and determines a result as an inappropriate speech label.SELECTED DRAWING: Figure 4

Description

本発明は、発話文判定装置、方法、及びプログラムに係り、特に、システムの発話として不適切な発話を判定するための発話文判定装置、方法、及びプログラムに関する。   The present invention relates to an utterance sentence determination apparatus, method, and program, and more particularly, to an utterance sentence determination apparatus, method, and program for determining an utterance inappropriate as an utterance of a system.

大量のユーザの発話文から自動的に発話候補文を獲得する研究として、たとえば非特許文献1や特許文献1がある。これらは発話が日本語として正しいかどうかを判定することで、質の良い発話文を抽出する方法である。   Non-patent document 1 and patent document 1 are examples of research for automatically acquiring utterance candidate sentences from a large number of user utterance sentences. These are methods for extracting high-quality utterance sentences by determining whether the utterances are correct as Japanese.

別の関連研究として、ヘイトスピーチなどの”abusive language”を検出する研究に、例えば非特許文献2がある。これは、ユーザコメントがabusiveかcleanかを、教師有り機械学習の枠組みで判定するものである。   As another related study, for example, Non-Patent Document 2 is a study for detecting “abusive language” such as hate speech. This is to determine whether a user comment is abusive or clean in the framework of supervised machine learning.

特許第5676683号公報Japanese Patent No. 5676683

稲葉通将,神園彩香,高橋健一,Twitterを用いた非タスク指向型対話システムのための発話候補文獲得,人工知能学会論文誌Vol.29 No.1 2014.Michimasa Inaba, Ayaka Kamizono, Kenichi Takahashi, Acquisition of utterance candidate sentences for non-task-oriented dialogue system using Twitter, Journal of the Japanese Society for Artificial Intelligence Vol.29 No.1 2014. Chikashi Nobata, Joel Tetreault, Achint Thomas, Yashar Mehdad, Yi Chang, Abusive Language Detection in Online User Content. WWW2016Chikashi Nobata, Joel Tetreault, Achint Thomas, Yashar Mehdad, Yi Chang, Abusive Language Detection in Online User Content.

従来の手法は、上述したように日本語としての正しさを判定するものであり、システムの発話として不適切な発話をフィルタリングすることができない。例えば、「北方領土は日本のものだ」という発話は日本語として問題のない文であるが、聞く人によっては問題と感じる可能性があるためシステムの発話として適切ではない。   The conventional method determines correctness as Japanese as described above, and cannot filter utterances inappropriate as system utterances. For example, the utterance "Northern territory is Japanese" is a sentence with no problem in Japanese, but it is not appropriate as an utterance of the system because it may be a problem depending on the listener.

また、不適切なコメントを判定する関連研究では、ユーザコメントがabusiveかcleanかの2値で判定しているが、ある発話を不適切とすべきか否かは、システムのキャラクタ設定次第であり、例えば、罵倒するキャラクタであれば罵倒表現はOK(ただしアダルトはNG)など、キャラクタによって異なるため、2値分類ではキャラクタごとに正解データおよび判定モデルを作成する必要があり、さまざまなキャラクタに応用するにはコストが高い。   Also, in related research to determine inappropriate comments, user comments are determined as binary values, abusive or clean, but whether or not a certain utterance should be inappropriate depends on the system character settings, For example, if a character is abusive, the expression of abuse is OK (but adult is NG), so it depends on the character. In binary classification, it is necessary to create correct data and a judgment model for each character, and it can be applied to various characters. The cost is high.

本発明は、上記問題点を解決するために成されたものであり、システムの発話として不適切な発話をより適切に判定することができる発話文判定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and provides an utterance sentence determination device, method, and program capable of more appropriately determining an inappropriate utterance as an utterance of a system. Objective.

上記目的を達成するために、第1の発明に係る発話文判定装置は、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するテキスト解析部と、前記テキスト解析情報と、前記発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、前記発話から、表現及び前記表現のクラスを含む手かがり表現情報を抽出する手がかり表現抽出部と、前記テキスト解析情報に基づいて、前記発話の文体を示す文体ラベルを決定する文体ラベル決定部と、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な話題語表現を抽出し、前記話題語表現のクラスに基づいて、不適切話題語ラベルを決定する不適切話題語ラベル決定部と、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定し、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定する不適切発話ラベル決定部と、を含んで構成されている。   To achieve the above object, an utterance sentence determination device according to a first invention divides an inputted utterance into sentence units, and generates text analysis information by dividing the divided sentence into morpheme units. Based on an analysis unit, the text analysis information, and a dictionary and a rule created in advance for extracting an expression of the utterance and assigning a class, a method including the expression and the class of the expression from the utterance A clue expression extracting unit that extracts overexpression information, a stylistic label determining unit that determines a stylistic label indicating the type of the utterance based on the text analysis information, the text analysis information, and the overexpression expression information An inappropriate topic word expression is extracted from the utterance and an inappropriate topic word label is determined based on the topic word expression class; Based on the text analysis information and the clue expression information, an inappropriate predicate expression is extracted from the utterance, an inappropriate predicate label is determined based on the class of the predescript word expression, An inappropriate utterance label determination unit that determines an object label based on a class of corresponding case elements, and determines the inappropriate utterance label by linking the determined inappropriate predicate label and the object label; It is configured to include.

また、第1の発明に係る発話文判定装置において、前記辞書類は、不適切な表現となりうる体言及び前記体言のクラスを含むnegative体言辞書、不適切な表現となりうる対象表現及び前記対象表現のクラスを含む対象表現辞書、並びに不適切な表現となりうる用言及び前記用言のクラスを含む用言辞書からなり、前記規則類は、不適切な表現となりうる対象表現を抽出し、クラスを付与するための対象抽出規則、並びに不適切な表現となりうる述語表現を抽出し、クラスを付与するための述語抽出規則からなるようにしてもよい。   Further, in the spoken sentence determination device according to the first aspect of the invention, the dictionaries include a body language that can be an inappropriate expression and a negative body language dictionary that includes the body language class, a target expression that can be an inappropriate expression, and the target expression. It consists of a target expression dictionary including classes, and a prescriptive dictionary including predicates that can be inappropriate expressions and the prescriptive class, and the rules extract target expressions that can be inappropriate expressions and assign classes. It is also possible to extract a predicate extraction rule for assigning a class by extracting a predicate expression that can be an inappropriate expression as well as an object extraction rule for the purpose.

また、第1の発明に係る発話文判定装置において、前記不適切発話ラベル決定部は、前記手がかり表現情報から得られる、前記発話に含まれる前記述語表現のクラスと、前記述語表現に対応する格要素のクラスとに基づいて、不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定する不適切述語ラベル決定部と、前記手がかり表現情報から得られる、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する対象ラベル決定部と、前記不適切述語ラベルと、前記対象ラベルとを連結して前記不適切発話ラベルとする不適切発話ラベル出力部と、を含むようにしてもよい。   Further, in the utterance sentence determination device according to the first invention, the inappropriate utterance label determination unit corresponds to the class of the pre-description word expression included in the utterance and the pre-description word expression obtained from the clue expression information. An inappropriate predicate label determination unit that extracts an inappropriate predicate expression based on a class of case elements to be determined and determines an inappropriate predicate label based on a class of a previous descriptor expression, and obtained from the clue expression information. A target label determination unit that determines a target label based on a class of case elements corresponding to the pre-descriptor expression, the inappropriate predicate label, and the target label are connected to form the inappropriate utterance label. An inappropriate utterance label output unit.

第2の発明に係る発話文判定方法は、テキスト解析部が、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するステップと、手がかり表現抽出部が、前記テキスト解析情報と、前記発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、前記発話から、表現及び前記表現のクラスを含む手かがり表現情報を抽出するステップと、文体ラベル決定部が、前記テキスト解析情報に基づいて、前記発話の文体を示す文体ラベルを決定するステップと、不適切話題語ラベル決定部が、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な話題語表現を抽出し、前記話題語表現のクラスに基づいて、不適切話題語ラベルを決定するステップと、不適切発話ラベル決定部が、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定し、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定するステップと、を含んで実行することを特徴とする。   In the spoken sentence determination method according to the second invention, the text analysis unit divides the inputted utterance into sentence units, and generates the text analysis information by dividing the divided sentences into morpheme units; An expression extraction unit includes an expression and a class of the expression from the utterance based on the text analysis information and dictionaries and rules created in advance to extract the expression of the utterance and assign a class. A step of extracting handwriting expression information, a step of determining a stylistic label indicating a style of the utterance based on the text analysis information, and a step of determining an inappropriate topic word label determining unit Based on the information and the clue expression information, an inappropriate topic word expression is extracted from the utterance, and an inappropriate topic word label is extracted based on the topic word expression class. And an inappropriate utterance label determination unit extracts an inappropriate predicate expression from the utterance based on the text analysis information and the clue expression information, and based on a class of predescription expression The inappropriate predicate label is determined, the target label is determined based on the class of the case element corresponding to the previous descriptor expression, and the determined inappropriate predicate label and the target label are connected to be inappropriate. And determining the utterance label.

また、第2の発明に係る発話文判定方法において、前記辞書類は、不適切な表現となりうる体言及び前記体言のクラスを含むnegative体言辞書、対象表現及び前記対象表現のクラスを含む対象表現辞書、並びに用言及び前記用言のクラスを含む用言辞書からなり、前記規則類は、不適切な表現となりうる対象表現を抽出し、クラスを付与するための対象抽出規則、並びに不適切な表現となりうる述語表現を抽出し、クラスを付与するための述語抽出規則からなるようにしてもよい。   Further, in the spoken sentence determination method according to the second invention, the dictionaries include a negative expression dictionary including an expression that can be an inappropriate expression and the expression class, an object expression dictionary including an object expression and the object expression class. , And a prescriptive dictionary including a predicate and a class of the predicates, and the rules extract a target expression that can be an inappropriate expression, an object extraction rule for assigning a class, and an inappropriate expression Predicate expressions that can be extracted are extracted, and predicate extraction rules for assigning classes may be included.

また、第2の発明に係る発話文判定方法において、前記不適切発話ラベル決定部が決定するステップは、不適切述語ラベル決定部が、前記手がかり表現情報から得られる、前記発話に含まれる前記述語表現のクラスと、前記述語表現に対応する格要素のクラスとに基づいて、不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定するステップと、対象ラベル決定部が、前記手がかり表現情報から得られる、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定するステップと、不適切発話ラベル出力部が、前記不適切述語ラベルと、前記対象ラベルとを連結して前記不適切発話ラベルとするステップと、を含むようにしてもよい。   Further, in the utterance sentence determination method according to the second invention, the step of determining the inappropriate utterance label determination unit includes a pre-description included in the utterance obtained by the inappropriate predicate label determination unit from the clue expression information. Extracting an inappropriate predicate expression based on a class of word expressions and a class of case elements corresponding to the preceding descriptor expression, and determining an inappropriate predicate label based on the class of the preceding descriptor expression; The target label determining unit determines a target label based on a class of case elements corresponding to the predescription word expression obtained from the clue expression information; and the inappropriate utterance label output unit includes the inappropriate predicate The method may include a step of connecting a label and the target label to form the inappropriate utterance label.

また、第3の発明に係るプログラムは、コンピュータを、第1の発明に係る発話文判定装置の各部として機能させるためのプログラムである。   A program according to the third invention is a program for causing a computer to function as each part of the spoken sentence determination device according to the first invention.

本発明の発話文判定装置、方法、及びプログラムによれば、発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類に基づいて、発話から、表現及び表現のクラスを含む手かがり表現情報を抽出し、発話から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定し、発話から不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定し、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、決定した不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとして決定することにより、システムの発話として不適切な発話をより適切に判定することができる、という効果が得られる。   According to the utterance sentence determination apparatus, method, and program of the present invention, an expression and a class of expression are extracted from an utterance based on a dictionary and rules created in advance to extract the expression of the utterance and assign a class. Extracting clue expression information including, extracting inappropriate topic word expressions from utterances, determining inappropriate topic word labels based on topic word expression classes, extracting inappropriate predicate expressions from utterances, The inappropriate predicate label is determined based on the predicate expression class, the target label is determined based on the class of the case element corresponding to the predicate expression, and the determined inappropriate predicate label and the target label are concatenated. By determining the inappropriate utterance label, it is possible to more appropriately determine an inappropriate utterance as the utterance of the system.

不適切話題語ラベルの一例を示す図である。It is a figure which shows an example of an inappropriate topic word label. 不適切発話ラベルの一例を示す図である。It is a figure which shows an example of an inappropriate utterance label. 文体ラベルの一例を示す図である。It is a figure which shows an example of a style label. 本発明の実施の形態に係る発話文判定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the utterance sentence determination apparatus which concerns on embodiment of this invention. テキスト解析情報の一例を示す図である。It is a figure which shows an example of text analysis information. negative体言辞書の一例を示す図である。It is a figure which shows an example of a negative word dictionary. 対象表現辞書の一例を示す図である。It is a figure which shows an example of an object expression dictionary. 用言辞書の一例を示す図である。It is a figure which shows an example of a precaution dictionary. 対象抽出規則の一例を示す図である。It is a figure which shows an example of an object extraction rule. 述語抽出規則の一例を示す図である。It is a figure which shows an example of a predicate extraction rule. 述語表現のクラスの一例を示す図である。It is a figure which shows an example of the class of predicate expression. 本発明の実施の形態に係る発話文判定装置における発話文判定処理ルーチンを示すフローチャートである。It is a flowchart which shows the utterance sentence determination processing routine in the utterance sentence determination apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態に係る概要> <Outline according to Embodiment of the Present Invention>

本発明の実施の形態では、正解データを用いず、システムの発話として適切ではない発話に不適切を表すラベルを付与する手段により上記の問題を解決する。   In the embodiment of the present invention, the above-mentioned problem is solved by means for giving a label indicating inappropriateness to an utterance that is not appropriate as an utterance of the system without using correct data.

本発明の実施の形態では、入力は発話文(テキスト)であり、出力は〈不適切話題語ラベル、不適切発話ラベル、文体ラベル〉である。各ラベルは空の場合もある。   In the embodiment of the present invention, the input is an utterance sentence (text), and the output is <an inappropriate topic word label, an inappropriate utterance label, a style label>. Each label may be empty.

以下、入出力の例をいくつか示す。 Here are some examples of input and output.

例1)
入力:T島はK国が不法占拠します
出力:〈POLITICAL_ISSUE,NEG_ACT /NATION,〉
Example 1)
Input: T island is illegally occupied by T country Output: <POLITICAL_ISSUE, NEG_ACT / NATION,>

例2)
入力:年寄りが口出しするな
出力:〈PSET,/PSET,PROH/IMP〉
Example 2)
Input: The elderly don't squeeze Output: <PSET, / PSET, PROH / IMP>

例3)
入力:あれはきちがいだ
出力:〈,SWD,NOT_POLITE〉
Example 3)
Input: That is a different output: <, SWD, NOT_POLITE>

不適切話題語ラベル、不適切発話ラベル、文体ラベルはあらかじめ人手で定義したラベルセットを使用する。本構成では図1に示す不適切話題語ラベル、図2に示す不適切発話ラベル、及び図3に示す文体ラベルを用いたが、他のラベルセットを定義して使用してもよい。   For inappropriate topic word labels, inappropriate utterance labels, and style labels, a label set defined in advance by hand is used. In this configuration, the inappropriate topic word label shown in FIG. 1, the inappropriate utterance label shown in FIG. 2, and the style label shown in FIG. 3 are used, but other label sets may be defined and used.

<本発明の実施の形態に係る発話文判定装置の構成> <Configuration of Utterance Sentence Determination Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係る発話文判定装置の構成について説明する。図4に示すように、本発明の実施の形態に係る発話文判定装置100は、CPUと、RAMと、後述する発話文判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この発話文判定装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部48とを備えている。   Next, the configuration of the spoken sentence determination device according to the embodiment of the present invention will be described. As shown in FIG. 4, the utterance sentence determination device 100 according to the embodiment of the present invention includes a CPU, a RAM, a ROM that stores a program and various data for executing an utterance sentence determination processing routine described later, Can be configured with a computer including Functionally, the spoken sentence determination apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 48 as shown in FIG.

入力部10は、発話の集合を受け付ける。   The input unit 10 receives a set of utterances.

演算部20は、negative体言辞書21と、対象表現辞書22と、用言辞書23と、対象抽出規則24と、述語抽出規則25と、テキスト解析部30と、手がかり表現抽出部32と、文体ラベル決定部34と、不適切話題語ラベル決定部36と、不適切発話ラベル決定部40と、出力部48と、を含んで構成されている。   The arithmetic unit 20 includes a negative body dictionary 21, a target expression dictionary 22, a predicate dictionary 23, a target extraction rule 24, a predicate extraction rule 25, a text analysis unit 30, a clue expression extraction unit 32, and a style label. The determination unit 34 includes an inappropriate topic word label determination unit 36, an inappropriate utterance label determination unit 40, and an output unit 48.

テキスト解析部30は、入力部10が受け付けた発話の集合の発話の各々について、発話を文単位に分割し、分割された文を形態素単位に分割することにより発話の各々についてのテキスト解析情報を生成する。分割された発話の発話文(テキスト)を入力とし、テキスト解析情報として、既知の技術である形態素解析・係り受け解析・固有表現抽出により、形態素情報(品詞、標準表記、読み等)、係り受け情報、固有表現情報を付与する。   For each utterance of the set of utterances received by the input unit 10, the text analysis unit 30 divides the utterance into sentence units, and divides the divided sentence into morpheme units to obtain text analysis information about each utterance. Generate. Sentence sentences (text) of divided utterances are input, and morphological information (part of speech, standard notation, reading, etc.) and dependency are obtained as text analysis information by morphological analysis, dependency analysis, and specific expression extraction, which are known techniques. Information and specific expression information.

図5には一例として「T島はK国が不法占拠します」という発話を受け付けた場合にテキスト解析部30が生成するテキスト解析情報を示した。図5に示すように、受け付けた発話を形態素単位に分割し、出現表記、品詞、及びシソーラス番号(例えば日本語語彙大系の番号)を含むテキスト解析情報が生成される。また、「T島」と「K国」が固有表現のクラス「LOCATION」として抽出される。固有表現の定義は参考文献1に従う。文節情報は「文節ID、係り先文節ID/係りタイプ、主辞形態素番号/機能語形態素番号」の情報を含む。   FIG. 5 shows text analysis information generated by the text analysis unit 30 when an utterance “T island is illegally occupied by K country” is received as an example. As shown in FIG. 5, the received utterance is divided into morpheme units, and text analysis information including appearance notation, part of speech, and thesaurus number (for example, a Japanese vocabulary system number) is generated. Also, “T island” and “K country” are extracted as the class “LOCATION” of the unique expression. The definition of the proper expression follows Reference Document 1. The phrase information includes information of “sentence ID, dependency clause ID / relationship type, main morpheme number / function word morpheme number”.

[参考文献1]:IREX(https://nlp.cs.nyu.edu/irex/index-j.html) [Reference 1]: IREX (https://nlp.cs.nyu.edu/irex/index-j.html)

手がかり表現抽出部32は、テキスト解析部30で生成された発話の各々のテキスト解析情報と、発話の表現を抽出しクラスを付与するために予め作成された、negative体言辞書21、対象表現辞書22、用言辞書23、対象抽出規則24、及び述語抽出規則25とに基づいて、発話の各々から、表現及び表現のクラスを含む手かがり表現情報を抽出する。   The clue expression extraction unit 32 extracts the text analysis information of each utterance generated by the text analysis unit 30, the expression of the utterance, and the negative expression dictionary 21 and the target expression dictionary 22 which are created in advance to assign a class. Based on the prescriptive dictionary 23, the object extraction rule 24, and the predicate extraction rule 25, the clue expression information including the expression and the expression class is extracted from each utterance.

negative体言辞書21は、図6に示すように、不適切な表現となりうる体言、体言の標準表記、及び体言のクラスを含む辞書である。   As shown in FIG. 6, the negative word dictionary 21 is a dictionary including a word that can be an inappropriate expression, a standard notation of the word, and a word class.

対象表現辞書22は、図7に示すように、対象表現、対象表現の標準表記、及び対象表現のクラスを含む辞書である。   As shown in FIG. 7, the target expression dictionary 22 is a dictionary including the target expression, the standard notation of the target expression, and the class of the target expression.

用言辞書23は、図8に示すように、用言、用言の標準表記、及び用言のクラスを含む辞書である。   As shown in FIG. 8, the precaution dictionary 23 is a dictionary including prescriptions, standard notation of prescriptions, and prescriptive classes.

対象抽出規則24は、図9に示すように、不適切な表現となりうる対象表現を抽出し、クラスを付与するための規則である。なお、規則の記載について補足する。<>は一形態素を表す。コロン(:)の左は照合するフィールドを示し、右はフィールドの値を示す。スラッシュ(/)はand条件である。他は正規表現の記載に準ずる。   As shown in FIG. 9, the target extraction rule 24 is a rule for extracting a target expression that can be an inappropriate expression and assigning a class. In addition, it supplements about description of rule. <> Represents a morpheme. The left of the colon (:) indicates the field to be matched, and the right indicates the field value. The slash (/) is an and condition. Others conform to the description of regular expressions.

述語抽出規則25は、図10に示すように、不適切な表現となりうる述語表現を抽出し、クラスを付与するための規則である。   As shown in FIG. 10, the predicate extraction rule 25 is a rule for extracting a predicate expression that can be an inappropriate expression and assigning a class.

手がかり表現抽出部32の処理の流れを説明する。手がかり表現抽出部32では、まず、テキスト解析部30で解析された発話のテキスト解析情報を入力とし、解析済み発話文の形態素列に対して、negative体言辞書21、対象表現辞書22、及び用言辞書23の3つの辞書を適用し、辞書に存在する表現があれば、その表現と標準表記、クラス情報を、抽出元の辞書情報とともに手がかり表現情報として抽出する。辞書情報を付与することで、抽出された表現がnegative体言、対象表現、用言のいずれであるかが判別できる。また、辞書だけではなく、対象抽出規則24の正規表現に基づく規則を用いて該当表現を抽出してもよい。例えば、図9の規則Aを適用して「地名+人」をETHNICとして抽出する。   A processing flow of the clue expression extraction unit 32 will be described. In the clue expression extraction unit 32, first, the text analysis information of the utterance analyzed by the text analysis unit 30 is input, and the negative phrasal dictionary 21, the target expression dictionary 22, and the predicate are applied to the morpheme sequence of the analyzed utterance sentence. If three dictionaries 23 are applied and there is an expression existing in the dictionary, the expression, standard notation, and class information are extracted as clue expression information together with the extraction source dictionary information. By adding dictionary information, it is possible to determine whether the extracted expression is a negative expression, a target expression, or a predicate. Further, the corresponding expression may be extracted using not only the dictionary but also a rule based on the regular expression of the object extraction rule 24. For example, “place name + person” is extracted as ETHNIC by applying rule A in FIG.

次に、抽出した手がかり表現情報と述語抽出規則25を用いて、述語表現とそのクラス(述語クラス)を抽出する。図10に示す規則Aは、用言辞書23を適用して抽出されたクラス「NEG_STATE」に当てはまる形態素の後に「し」という表記があった場合に、当該表記を述語表現のクラス「NEG_ACT」として抽出し、手がかり表現情報とするものである。例えば「占拠しています」という文の場合、「占拠し」が述語表現、NEG_ACTが述語表現のクラスとなる。   Next, the predicate expression and its class (predicate class) are extracted using the extracted clue expression information and the predicate extraction rule 25. In the rule A shown in FIG. 10, when there is a notation “shi” after a morpheme that applies to the class “NEG_STATE” extracted by applying the prescriptive dictionary 23, the notation is designated as a predicate expression class “NEG_ACT”. It is extracted and used as clue expression information. For example, in the case of a sentence “Occupying”, “Occupying” is a predicate expression class and NEG_ACT is a predicate expression class.

図10に示す規則Bは、「○○したい/○○してほしい」などの願望を表す述語表現を抽出し、述語表現のクラス「ACT_WANT」を付与する規則の例であり、規則Cは「壊したい」のようにnegativeな行為に対する願望を表す述語表現を抽出し、述語表現のクラス「NEG_WANT」を付与する規則の例である。   The rule B shown in FIG. 10 is an example of a rule that extracts a predicate expression representing a desire such as “I want to do XX / I want you to do XX” and gives a class “ACT_WANT” of the predicate expression. This is an example of a rule that extracts a predicate expression representing a desire for a negative action such as “I want to break” and assigns a class “NEG_WANT” of the predicate expression.

また、用言辞書23によって抽出され、かつ、述語抽出規則25に当てはまらなかった表現は、用言辞書23によって抽出された表現とクラスが、述語表現及び述語表現のクラスとなる。また、negative体言中の「ADLT」および「SWD」に該当する表現も、述語表現及び述語表現のクラスとして扱う。   For expressions that are extracted by the predicate dictionary 23 and do not apply to the predicate extraction rule 25, the expressions and classes extracted by the predicate dictionary 23 are classes of predicate expressions and predicate expressions. In addition, expressions corresponding to “ADLT” and “SWD” in negative expressions are also treated as predicate expressions and predicate expression classes.

文体ラベル決定部34は、テキスト解析部30で生成された発話の各々のテキスト解析情報に基づいて、発話の各々の文体を示す文体ラベルを決定する。ここでは、発話のテキスト解析情報の文末の形態素情報を手がかりに文体ラベルを決定する。まず、発話文の末尾の内容語が動詞の場合、後続する形態素に「べき」であれば、文体ラベルは「DEO」と判定する。それ以外の場合、発話文の末尾の内容語が「動詞連用形」か、「動詞基本形」に「な」が後続する場合に、文体ラベルは「PROH/IMP」と判定する。それ以外の場合、入力発話文が「です」「でし(た|て|ょ)」「ます」「まし(た|て|ょ)」「ませ($|ん)」のいずれにもマッチしなければ文体ラベルは「NOT_POLITE」と判定する。   The style label determination unit 34 determines a style label indicating each style of the utterance based on the text analysis information of each utterance generated by the text analysis unit 30. Here, the style label is determined based on the morphological information at the end of the sentence in the text analysis information of the utterance. First, when the content word at the end of an utterance sentence is a verb, if the morpheme that follows is “should”, the style label is determined as “DEO”. In other cases, when the content word at the end of the utterance sentence is “verb continuous form” or “verb basic form” is followed by “na”, the style label is determined as “PROH / IMP”. Otherwise, the input utterance will match any of the following: “is”, “deshi (ta | te | cho)”, “mas”, “masashi (ta | te | yo)”, “not ($ | n)” Otherwise, the style label is determined as “NOT_POLITE”.

不適切話題語ラベル決定部36は、テキスト解析部30で生成された発話の各々のテキスト解析情報と、手かがり表現抽出部32で発話の各々について抽出された手かがり表現情報とに基づいて、発話の各々から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定する。   The inappropriate topic word label determination unit 36, based on the text analysis information of each utterance generated by the text analysis unit 30 and the handcuff expression information extracted about each utterance by the handcuff expression extraction unit 32, An inappropriate topic word expression is extracted from each utterance, and an inappropriate topic word label is determined based on the topic word expression class.

不適切話題語ラベル決定部36では、まず、発話のテキスト解析情報から、その発話の話題となっている語(話題語)を同定する。話題語の同定は助詞を手がかりに行うことができる。例えば助詞「は」「が」「って」「なんて」を伴う名詞句相当を抽出することで実現できる。該当する語が存在しない場合、話題語は空とする。   The inappropriate topic word label determination unit 36 first identifies a word (topic word) that is the topic of the utterance from the text analysis information of the utterance. Topic words can be identified using particles as clues. For example, it can be realized by extracting equivalents of noun phrases with the particles “ha”, “ga”, “te”, and “what”. When there is no corresponding word, the topic word is empty.

前述の例「T島はK国が不法占拠します」の場合、連用助詞「は」を伴う名詞である「T島」が話題語として抽出される。なお、ここでは規則による話題語抽出について述べたが、一般的な固有表現抽出手法(例えば非特許文献3)で用いられるようなチャンキングの手法(CRFなど)を用いて実現してもよい。   In the case of the above-mentioned example “T island is illegally occupied by K country”, “T island”, which is a noun accompanied by the consecutive particle “ha”, is extracted as a topic word. Although topic word extraction based on rules has been described here, it may be realized using a chunking technique (CRF or the like) used in a general specific expression extraction technique (for example, Non-Patent Document 3).

[非特許文献3]:笹野遼平,黒橋禎夫,大域的情報を用いた日本語固有表現認識,情報処理学会論文誌Vol.49 No.11, 2008. [Non-patent literature 3]: Shinpei Kanno, Ikuo Kurohashi, Japanese proper expression recognition using global information, Journal of Information Processing Society of Japan Vol.49 No.11, 2008.

不適切話題語ラベル決定部36では、次に、抽出された話題語がnegative体言もしくは対象表現であれば、その表現のクラスを不適切話題語ラベルとして出力する。それ以外の場合、不適切話題語ラベルは空となる。   Next, if the extracted topic word is a negative word or target expression, the inappropriate topic word label determination unit 36 outputs the class of the expression as an inappropriate topic word label. Otherwise, the inappropriate topic word label is empty.

不適切発話ラベル決定部40は、テキスト解析部30で生成された発話の各々のテキスト解析情報と、手かがり表現抽出部32で発話の各々について抽出された手かがり表現情報とに基づいて、発話の各々から不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定し、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、決定した不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとして決定する。   The inappropriate utterance label determination unit 40 utters speech based on the text analysis information of each utterance generated by the text analysis unit 30 and the cue expression information extracted for each utterance by the cue expression extraction unit 32. Inappropriate predicate expressions are extracted from each of them, an inappropriate predicate label is determined based on the class of the predicate expression, a target label is determined based on the class of the case element corresponding to the predicate expression, and the The appropriate predicate label and the target label are concatenated and determined as an inappropriate utterance label.

不適切発話ラベル決定部40は、不適切述語ラベル決定部42と、対象ラベル決定部44と、不適切発話ラベル出力部46とを含んで構成されている。   The inappropriate utterance label determination unit 40 includes an inappropriate predicate label determination unit 42, a target label determination unit 44, and an inappropriate utterance label output unit 46.

不適切発話ラベル決定部40では、まず、手がかり表現情報に述語表現が存在するか否かを判定し、存在すれば以下の不適切述語ラベル決定部42、及び対象ラベル決定部44の処理を行い、存在しなければ不適切発話ラベル出力部46から不適切発話ラベルは空として出力する。述語表現が複数存在する場合、末尾の述語表現を対象として処理を実施する。述語の格要素は、テキスト解析情報の係り受け結果を用いて、「が」「を」等の格助詞もしくは連用助詞を伴って述語に係る表現を抽出することで得られる。   The inappropriate utterance label determination unit 40 first determines whether or not a predicate expression exists in the clue expression information. If the predicate expression exists, the following inappropriate predicate label determination unit 42 and target label determination unit 44 are processed. If not, the inappropriate utterance label output unit 46 outputs the inappropriate utterance label as empty. When there are a plurality of predicate expressions, processing is performed on the last predicate expression. The case element of the predicate is obtained by extracting an expression related to the predicate with a case particle such as “ga” and “wa” or a combined particle using the dependency result of the text analysis information.

不適切述語ラベル決定部42は、以下のように、手がかり表現情報から得られる、発話の各々に含まれる述語表現のクラスと、述語表現に対応する格要素のクラスとに基づいて、発話の各々について、不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定する。   The inappropriate predicate label determination unit 42 determines each utterance based on the predicate expression class included in each utterance and the case element class corresponding to the predicate expression obtained from the clue expression information as follows. For example, an inappropriate predicate expression is extracted, and an inappropriate predicate label is determined based on the class of the predicate expression.

述語表現のクラスが”(PLUS|PROS)”にマッチする場合、「ガ(ハ)格」にnegative体言が存在すれば、不適切述語ラベルを”NEG_STATE”とする。   If the class of the predicate expression matches “(PLUS | PROS)”, if there is a negative word in “G”, the inappropriate predicate label is “NEG_STATE”.

例えば、「戦争が増えます」という発話であれば、格要素と述語表現は、「[ガ格:N_N]戦争、[述語表現のクラス:PLUS]:増える」であるので、不適切述語ラベルを”NEG_STATE”とする。   For example, if the utterance is “war will increase”, the case element and predicate expression are “[G case: N_N] war, [class of predicate expression: PLUS]: increase”. Set to “NEG_STATE”.

述語表現のクラスが”POS_EVAL”であり、「ガ(ハ)格」にnegative体言が存在すれば、不適切述語ラベルを”POS_EVAL_NEG”とする。   If the predicate expression class is “POS_EVAL” and there is a negative expression in “G”, the inappropriate predicate label is “POS_EVAL_NEG”.

例えば、「戦争は楽しい」という発話であれば、格要素と述語表現は、「[ハ格:N_N]戦争、[述語表現のクラス:POS_EVAL]:楽しい」であるので、不適切述語ラベルを”POS_EVAL_NEG”とする。   For example, if the utterance is “war is fun”, the case element and predicate expression are “[Case: N_N] war, [class of predicate expression: POS_EVAL]: fun”. POS_EVAL_NEG ”.

述語表現のクラスが”WANT_ACT”であり「ヲ格」もしくは「ニ格」にnegative体言が存在すれば不適切述語ラベルを”NEG_WANT”とする。   If the predicate expression class is “WANT_ACT” and there is a negative word in “wo case” or “ni case”, the inappropriate predicate label is “NEG_WANT”.

例えば、「戦争をしたい」という発話であれば、格要素と述語表現は、「[ヲ格:N_N]戦争、[述語表現のクラス:WANT_ACT]:したい」であるので、不適切述語ラベルを”NEG_WANT”とする。   For example, if the utterance is “I want to do war,” the case element and predicate expression are “[Wo: N_N] war, [Predicate expression class: WANT_ACT]: I want to do”, so I ’ll give an inappropriate predicate label. ” NEG_WANT ”.

述語表現のクラスが上記以外の場合、述語表現のクラスを不適切述語ラベルとする。ただし述語表現のクラスがPLUS、MINUSのいずれかであれば不適述語ラベルは空とする。   If the predicate expression class is other than the above, the predicate expression class is set as an inappropriate predicate label. However, if the predicate expression class is either PLUS or MINUS, the inappropriate predicate label is empty.

例えば、「この馬鹿が」という発話であれば、[不適切述語ラベル:SWD]:馬鹿、となる。一方、「おなかが減ります」という発話であれば、[不適切述語ラベル:空]となる。   For example, if the utterance is “This idiot is”, [unsuitable predicate label: SWD]: idiot. On the other hand, if the utterance says “I'm hungry”, the inappropriate predicate label is empty.

対象ラベル決定部44は、以下のように、手がかり表現情報から得られる、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する。   The target label determination unit 44 determines the target label based on the class of the case element corresponding to the predicate expression obtained from the clue expression information as follows.

対象ラベル決定部44では、以下の処理を「ガ格」「ハ格」「ヲ格」「ニ格」「デ格」「その他」の順で実施し、対象ラベルが決まった段階で処理を停止する。   In the target label determination unit 44, the following processing is performed in the order of “ga”, “ha”, “wo”, “ni”, “de”, “other”, and the processing is stopped when the target label is determined. To do.

まず、述語表現の「ガ格」がnegative体言、対象表現、固有表現のいずれかであればその格要素のクラスを対象ラベルとする。同じ表記に複数のクラスが存在した場合はnegative体言>対象表現>固有表現の優先順位とする。   First, if the “ga” of the predicate expression is any of a negative body expression, an object expression, or a specific expression, the class of the case element is set as the object label. If multiple classes exist in the same notation, the priority order is negative expression> target expression> specific expression.

例えば「T島はK国が不法占拠している」という発話であれば、対象ラベルと表記は[NATION(K国)]となる。   For example, if the utterance is “K island is illegally occupied on T island”, the target label and notation will be [NATION (K country)].

ガ格が存在しない、もしくは対象ラベルが決まらなかった場合、同様の処理を「ハ格」「ヲ格」「ニ格」「デ格」「その他」の順で実施する。全ての格をチェックしても対象ラベルが決まらなかった場合、対象ラベルは空となる。例外として、不適切述語ラベル決定部42で決定された不適切述語ラベルが「NEG_WANT」の場合、「ハ格」に対してのみ処理を実施する。ガ格、ハ格のいずれかが存在したにも関わらず対象ラベルが決まらなかった場合、対象ラベルは空とし、ガ格、ハ格がいずれも存在しなかった場合、対象ラベルは「SELF」とする。   If there is no case, or the target label is not determined, the same processing is performed in the order of “C”, “Wo”, “D”, “De” and “Other”. If the target label is not determined after checking all cases, the target label is empty. As an exception, when the inappropriate predicate label determined by the inappropriate predicate label determination unit 42 is “NEG_WANT”, the process is performed only for “Case”. If the target label is not determined despite the presence of either ga or c, the target label is empty, and if neither ga or c is present, the target label is “SELF”. To do.

例えば、「A国を潰したい」という発話であれば、対象ラベルは[SELF]となる。一方、「B国はA国を潰したい」という発話であれば、対象ラベルは[NATION]となる。   For example, if the utterance is “I want to crush country A”, the target label is [SELF]. On the other hand, if the utterance is “B country wants to crush A country”, the target label is [NATION].

不適切発話ラベル出力部46は、不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとする。ここでは、不適切述語ラベルと対象ラベルを‘/’でつないだものを不適切発話ラベルとして出力する。いずれも空の場合‘/’は出力しない。ただし、‘/’を出力するようにしてもよい。   The inappropriate utterance label output unit 46 concatenates the inappropriate predicate label and the target label into an inappropriate utterance label. Here, an inappropriate predicate label and a target label connected by '/' are output as an inappropriate utterance label. If both are empty, '/' is not output. However, '/' may be output.

例えば、「A国を潰したい」という発話であれば、[NEG_WANT/SELF]が不適切発話ラベルとなる。また、「B国はA国を潰したい」という発話であれば、[NEG_WANT/NATION]が不適切発話ラベルとなる。   For example, if the utterance is “I want to crush country A”, [NEG_WANT / SELF] is an inappropriate utterance label. Further, if the utterance is “B country wants to crush country A”, [NEG_WANT / NATION] is an inappropriate utterance label.

また、不適切述語ラベルがPROS、CONS、又はPOS_EVALの場合は以下の処理を実施して不適切述語ラベルを書き換えた上で不適切発話ラベルを出力する。   If the inappropriate predicate label is PROS, CONS, or POS_EVAL, the following processing is performed to rewrite the inappropriate predicate label and output the inappropriate utterance label.

対象ラベルがnegative体言もしくは対象表現由来の場合、不適切述語ラベルが、PROS、又はPOS_EVALであればPOS_EVALを不適切述語ラベルとし、不適切述語ラベルがCONSであればNEG_EVALを不適切述語ラベルとする。   If the target label is derived from a negative expression or target expression, if the inappropriate predicate label is PROS or POS_EVAL, POS_EVAL is the inappropriate predicate label, and if the inappropriate predicate label is CONS, NEG_EVAL is the inappropriate predicate label. .

上記に当てはまらない場合は、不適切述語ラベルは空とする。   If the above is not true, the inappropriate predicate label is empty.

例えば「主婦は楽ですね」という発話であれば、([対象ラベル:PSET(主婦)]、[不適切述語ラベル:POS_EVAL(楽)])であるので[POS_EVAL/PSET]が、不適切発話ラベルとなる。   For example, if the utterance is “Housewife is easy”, ([Target label: PSET (Housewife)], [Inappropriate predicate label: POS_EVAL (Easy)]), [POS_EVAL / PSET] is inappropriate. It becomes a label.

「自転車は楽ですね」という発話であれば、([対象ラベル:なし]、[不適切述語ラベル:POS_EVAL(楽)])であるので、不適切述語ラベルを空とし、[空]が不適切発話ラベルとなる。   If the utterance is “bicycle is easy”, it is ([target label: none], [inappropriate predicate label: POS_EVAL (easy)]), so the inappropriate predicate label is empty and [empty] is not. Appropriate utterance label.

出力部48は、不適切話題語ラベル決定部36で決定された不適切話題語ラベル、不適切発話ラベル出力部46から出力された不適切発話ラベル、及び文体ラベル決定部34で決定された文体ラベルをあわせた最終的な結果を出力する。   The output unit 48 uses the inappropriate topic word label determined by the inappropriate topic word label determination unit 36, the inappropriate utterance label output from the inappropriate utterance label output unit 46, and the style determined by the style label determination unit 34. Output the final result of combining the labels.

例えば「T島はK国が不法占拠します」という発話であれば、〈POLITICAL_ISSUE,NEG_ACT/NATION,〉が出力となる。   For example, if the utterance is “K island is illegally occupied on T island”, <POLITICAL_ISSUE, NEG_ACT / NATION,> is output.

<本発明の実施の形態に係る発話文判定装置の作用> <Operation of Speech Sentence Determination Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係る発話文判定装置100の作用について説明する。入力部10において発話の集合を受け付けると、発話文判定装置100は、図12に示す発話文判定処理ルーチンを実行する。   Next, the operation of the spoken sentence determination apparatus 100 according to the embodiment of the present invention will be described. When the input unit 10 receives a set of utterances, the utterance sentence determination device 100 executes an utterance sentence determination processing routine shown in FIG.

まず、ステップS100では、入力部10が受け付けた発話の集合の発話の各々について、発話を文単位に分割し、分割された文を形態素単位に分割することにより発話の各々についてのテキスト解析情報を生成する。   First, in step S100, for each of the utterances of the set of utterances received by the input unit 10, the utterance is divided into sentence units, and the divided sentence is divided into morpheme units to obtain text analysis information about each utterance. Generate.

次に、ステップS102では、ステップS100で生成された発話の各々のテキスト解析情報と、発話の表現を抽出しクラスを付与するために予め作成された、negative体言辞書21、対象表現辞書22、用言辞書23、対象抽出規則24、及び述語抽出規則25とに基づいて、発話の各々から、表現及び表現のクラスを含む手かがり表現情報を抽出する。   Next, in step S102, the text analysis information of each utterance generated in step S100 and the expression of the utterance and the negative expression dictionary 21 and the target expression dictionary 22 created in advance for assigning classes are used. Based on the word dictionary 23, the object extraction rule 24, and the predicate extraction rule 25, the clue expression information including the expression and the expression class is extracted from each utterance.

ステップS104では、ステップS100で生成された発話の各々のテキスト解析情報に基づいて、発話の各々の文体を示す文体ラベルを決定する。   In step S104, a style label indicating each style of the utterance is determined based on the text analysis information of each utterance generated in step S100.

ステップS106では、ステップS100で生成された発話の各々のテキスト解析情報と、ステップS102で発話の各々について抽出された手かがり表現情報とに基づいて、発話の各々から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定する。   In step S106, an inappropriate topic word expression is extracted from each utterance based on the text analysis information of each utterance generated in step S100 and the clue expression information extracted for each utterance in step S102. Then, an inappropriate topic word label is determined based on the topic word expression class.

ステップS108では、手がかり表現情報に述語表現が存在するか否かを判定し、存在すればステップS112へ移行し、存在しなければステップS110へ移行する。   In step S108, it is determined whether or not the predicate expression exists in the clue expression information. If it exists, the process proceeds to step S112, and if not, the process proceeds to step S110.

ステップS110では、不適切発話ラベルは空として出力する。   In step S110, the inappropriate utterance label is output as empty.

ステップS112では、ステップS102で発話の各々について抽出された手がかり表現情報から得られる、発話の各々に含まれる述語表現のクラスと、述語表現に対応する格要素のクラスとに基づいて、発話の各々について、不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定する。   In step S112, each of the utterances is determined based on the predicate expression class included in each of the utterances and the case element class corresponding to the predicate expression obtained from the clue expression information extracted for each of the utterances in step S102. For example, an inappropriate predicate expression is extracted, and an inappropriate predicate label is determined based on the class of the predicate expression.

ステップS114では、ステップS102で発話の各々について抽出された手がかり表現情報から得られる、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する。   In step S114, a target label is determined based on the case element class corresponding to the predicate expression obtained from the clue expression information extracted for each utterance in step S102.

ステップS116では、発話の各々について、ステップS112で決定された不適切述語ラベルと、ステップS114で決定された対象ラベルとを連結して不適切発話ラベルとする。   In step S116, for each utterance, the inappropriate predicate label determined in step S112 and the target label determined in step S114 are concatenated to form an inappropriate utterance label.

ステップS118では、発話の各々について、ステップS106で決定された不適切話題語ラベル、不適切発話ラベル出力部46から出力された不適切発話ラベル、及び文体ラベル決定部34で決定された文体ラベルをあわせた最終的な結果を出力し、処理を終了する。   In step S118, for each utterance, the inappropriate topic word label determined in step S106, the inappropriate utterance label output from the inappropriate utterance label output unit 46, and the style label determined by the style label determination unit 34 are displayed. The combined final result is output and the process ends.

以上説明したように、本発明の実施の形態に係る発話文判定装置によれば、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するテキスト解析部と、テキスト解析情報と、発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、発話から、表現及び表現のクラスを含む手かがり表現情報を抽出し、テキスト解析情報に基づいて、発話の文体を示す文体ラベルを決定し、テキスト解析情報と、手かがり表現情報とに基づいて、発話から不適切な話題語表現を抽出し、話題語表現のクラスに基づいて、不適切話題語ラベルを決定し、テキスト解析情報と、手かがり表現情報とに基づいて、発話から不適切な述語表現を抽出し、述語表現のクラスに基づいて、不適切述語ラベルを決定し、述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、決定した不適切述語ラベルと、対象ラベルとを連結して不適切発話ラベルとして決定することにより、システムの発話として不適切な発話をより適切に判定することができる。   As described above, according to the utterance sentence determination device according to the embodiment of the present invention, text analysis information is generated by dividing an inputted utterance into sentence units and dividing the divided sentence into morpheme units. Based on text analysis unit, text analysis information, and dictionary and rules created in advance to extract utterance expressions and assign classes, cue expression including expression and expression classes The information is extracted, the stylistic label indicating the style of the utterance is determined based on the text analysis information, and the inappropriate topic word expression is extracted from the utterance based on the text analysis information and the clue expression information. An inappropriate topic word label is determined based on the word expression class, and an inappropriate predicate expression is extracted from the utterance based on the text analysis information and the clue expression information. Inappropriate predicate label is determined, the target label is determined based on the class of the case element corresponding to the predicate expression, and the determined inappropriate predicate label and the target label are concatenated and determined as an inappropriate utterance label. By doing so, it is possible to more appropriately determine an utterance inappropriate as an utterance of the system.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、上述した実施の形態では、発話の表現を抽出しクラスを付与するため辞書類として、negative体言辞書21、対象表現辞書22、及び用言辞書23を、規則として、対象抽出規則24、及び述語抽出規則25を例として挙げたがこれに限定されるものではなく、他の辞書、及び他の規則を適用するようにしてもよい。   For example, in the above-described embodiment, the negative expression dictionary 21, the target expression dictionary 22, and the usage dictionary 23 are used as the dictionary for extracting the utterance expression and assigning the class, and the target extraction rule 24, and Although the predicate extraction rule 25 is given as an example, the present invention is not limited to this, and other dictionaries and other rules may be applied.

10 入力部
20 演算部
21 negative体言辞書
22 対象表現辞書
23 用言辞書
24 対象抽出規則
25 述語抽出規則
30 テキスト解析部
32 手がかり表現抽出部
34 文体ラベル決定部
36 不適切話題語ラベル決定部
40 不適切発話ラベル決定部
42 不適切述語ラベル決定部
44 対象ラベル決定部
46 不適切発話ラベル出力部
48 出力部
100 発話文判定装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 21 Negative expression dictionary 22 Target expression dictionary 23 Prediction dictionary 24 Target extraction rule 25 Predicate extraction rule 30 Text analysis part 32 Clue expression extraction part 34 Stylistic label determination part 36 Inappropriate topic word label determination part 40 Not Appropriate utterance label determination unit 42 inappropriate predicate label determination unit 44 target label determination unit 46 inappropriate utterance label output unit 48 output unit 100 utterance sentence determination device

Claims (7)

入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するテキスト解析部と、
前記テキスト解析情報と、前記発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、前記発話から、表現及び前記表現のクラスを含む手かがり表現情報を抽出する手がかり表現抽出部と、
前記テキスト解析情報に基づいて、前記発話の文体を示す文体ラベルを決定する文体ラベル決定部と、
前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な話題語表現を抽出し、前記話題語表現のクラスに基づいて、不適切話題語ラベルを決定する不適切話題語ラベル決定部と、
前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定し、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定する不適切発話ラベル決定部と、
を含む発話文判定装置。
A text analysis unit that generates text analysis information by dividing an input utterance into sentence units and dividing the divided sentences into morpheme units;
Based on the text analysis information and dictionaries and rules created in advance to extract the expression of the utterance and assign a class, clue expression information including the expression and the class of the expression is included from the utterance. A clue expression extraction unit to extract;
Based on the text analysis information, a stylistic label determining unit that determines a stylistic label indicating the stylistic of the utterance;
Inappropriate topic that extracts an inappropriate topic word expression from the utterance based on the text analysis information and the cue expression information, and determines an inappropriate topic word label based on the class of the topic word expression A word label determination unit;
Based on the text analysis information and the clue expression information, an inappropriate predicate expression is extracted from the utterance, an inappropriate predicate label is determined based on the class of the predescription expression, and the predescription expression An inappropriate utterance label determining unit that determines a target label based on a class of case elements corresponding to the above, and determines the inappropriate utterance label by linking the determined inappropriate predicate label and the target label;
Utterance sentence determination device including
前記辞書類は、不適切な表現となりうる体言及び前記体言のクラスを含むnegative体言辞書、対象表現及び前記対象表現のクラスを含む対象表現辞書、並びに用言及び前記用言のクラスを含む用言辞書からなり、
前記規則類は、不適切な表現となりうる対象表現を抽出し、クラスを付与するための対象抽出規則、並びに不適切な表現となりうる述語表現を抽出し、クラスを付与するための述語抽出規則からなる請求項1に記載の発話文判定装置。
The dictionaries include an expression that can be an inappropriate expression and a negative expression dictionary including a class of the expression, an object expression dictionary including an object expression and the class of the object expression, and a statement including a predicate and the class of the expression. Consist of a dictionary,
The above rules extract target expressions that can be inappropriate expressions, extract target extraction rules for assigning classes, and predicate expression rules that can extract inappropriate predicate expressions that can be inappropriate expressions. The utterance sentence determination apparatus according to claim 1.
前記不適切発話ラベル決定部は、
前記手がかり表現情報から得られる、前記発話に含まれる前記述語表現のクラスと、前記述語表現に対応する格要素のクラスとに基づいて、不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定する不適切述語ラベル決定部と、
前記手がかり表現情報から得られる、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定する対象ラベル決定部と、
前記不適切述語ラベルと、前記対象ラベルとを連結して前記不適切発話ラベルとする不適切発話ラベル出力部と、
を含む請求項2に記載の発話文判定装置。
The inappropriate utterance label determination unit
Extracting an inappropriate predicate expression based on the class of the predescription word expression included in the utterance and the class of the case element corresponding to the predescription word expression obtained from the clue expression information, An inappropriate predicate label determination unit that determines an inappropriate predicate label based on the class of
A target label determination unit for determining a target label based on a class of case elements corresponding to the pre-description word expression obtained from the clue expression information;
An inappropriate utterance label output unit that connects the inappropriate predicate label and the target label to form the inappropriate utterance label;
The utterance sentence judging device according to claim 2 containing.
テキスト解析部が、入力された発話を文単位に分割し、分割された文を形態素単位に分割することによりテキスト解析情報を生成するステップと、
手がかり表現抽出部が、前記テキスト解析情報と、前記発話の表現を抽出しクラスを付与するために予め作成された辞書類及び規則類とに基づいて、前記発話から、表現及び前記表現のクラスを含む手かがり表現情報を抽出するステップと、
文体ラベル決定部が、前記テキスト解析情報に基づいて、前記発話の文体を示す文体ラベルを決定するステップと、
不適切話題語ラベル決定部が、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な話題語表現を抽出し、前記話題語表現のクラスに基づいて、不適切話題語ラベルを決定するステップと、
不適切発話ラベル決定部が、前記テキスト解析情報と、前記手かがり表現情報とに基づいて、前記発話から不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定し、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定し、前記決定した前記不適切述語ラベルと、前記対象ラベルとを連結して不適切発話ラベルとして決定するステップと、
を含む発話文判定方法。
A step in which the text analysis unit divides the input utterance into sentence units, and generates the text analysis information by dividing the divided sentence into morpheme units;
The clue expression extraction unit extracts the expression and the class of the expression from the utterance based on the text analysis information and a dictionary and rules created in advance for extracting the expression of the utterance and assigning the class. Extracting handcuff expression information including;
A stylistic label determining unit determining a stylistic label indicating a stylistic style of the utterance based on the text analysis information;
The inappropriate topic word label determination unit extracts an inappropriate topic word expression from the utterance based on the text analysis information and the clue expression information, and inappropriate based on the topic word expression class. Determining a topic word label;
The inappropriate utterance label determination unit extracts an inappropriate predicate expression from the utterance based on the text analysis information and the clue expression information, and an inappropriate predicate label based on the class of the previous description word expression And determining the target label based on the class of the case element corresponding to the previous description expression, and determining the inappropriate utterance label by linking the determined inappropriate predicate label and the target label. Steps,
Utterance sentence determination method including
前記辞書類は、不適切な表現となりうる体言及び前記体言のクラスを含むnegative体言辞書、対象表現及び前記対象表現のクラスを含む対象表現辞書、並びに用言及び前記用言のクラスを含む用言辞書からなり、
前記規則類は、不適切な表現となりうる対象表現を抽出し、クラスを付与するための対象抽出規則、並びに不適切な表現となりうる述語表現を抽出し、クラスを付与するための述語抽出規則からなる請求項4に記載の発話文判定方法。
The dictionaries include an expression that can be an inappropriate expression and a negative expression dictionary including a class of the expression, an object expression dictionary including an object expression and the class of the object expression, and a statement including a predicate and the class of the expression. Consist of a dictionary,
The above rules extract target expressions that can be inappropriate expressions, extract target extraction rules for assigning classes, and predicate expression rules that can extract inappropriate predicate expressions that can be inappropriate expressions. The spoken sentence determination method according to claim 4.
前記不適切発話ラベル決定部が決定するステップは、
不適切述語ラベル決定部が、前記手がかり表現情報から得られる、前記発話に含まれる前記述語表現のクラスと、前記述語表現に対応する格要素のクラスとに基づいて、不適切な述語表現を抽出し、前記述語表現のクラスに基づいて、不適切述語ラベルを決定するステップと、
対象ラベル決定部が、前記手がかり表現情報から得られる、前記述語表現に対応する格要素のクラスに基づいて、対象ラベルを決定するステップと、
不適切発話ラベル出力部が、前記不適切述語ラベルと、前記対象ラベルとを連結して前記不適切発話ラベルとするステップと、
を含む請求項5に記載の発話文判定方法。
The step of determining the inappropriate utterance label determination unit includes:
The inappropriate predicate label determination unit obtains an inappropriate predicate expression based on the class of the previous description word expression included in the utterance and the class of the case element corresponding to the previous description word expression obtained from the clue expression information. And determining an inappropriate predicate label based on the class of predescriptor expression;
A target label determining unit determining a target label based on a class of case elements corresponding to the previous description word expression obtained from the clue expression information;
An inappropriate utterance label output unit concatenating the inappropriate predicate label and the target label into the inappropriate utterance label;
The spoken sentence determination method according to claim 5, comprising:
コンピュータを、請求項1〜請求項3のいずれか1項に記載の発話文判定装置の各部として機能させるためのプログラム。   The program for functioning a computer as each part of the utterance sentence determination apparatus of any one of Claims 1-3.
JP2017057731A 2017-03-23 2017-03-23 Utterance sentence determination apparatus, method, and program Active JP6650901B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017057731A JP6650901B2 (en) 2017-03-23 2017-03-23 Utterance sentence determination apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017057731A JP6650901B2 (en) 2017-03-23 2017-03-23 Utterance sentence determination apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2018160159A true JP2018160159A (en) 2018-10-11
JP6650901B2 JP6650901B2 (en) 2020-02-19

Family

ID=63796690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017057731A Active JP6650901B2 (en) 2017-03-23 2017-03-23 Utterance sentence determination apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6650901B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102229032B1 (en) * 2020-06-23 2021-03-17 주식회사 우리홈쇼핑 Device and method for providing notification for broadcast deliberation
WO2024014230A1 (en) * 2022-07-15 2024-01-18 国立研究開発法人情報通信研究機構 Speech filtering device, interaction system, context model training data generation device, and computer program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0477857A (en) * 1990-07-13 1992-03-11 Nippon Telegr & Teleph Corp <Ntt> Improper expression detecting device
JP2013084180A (en) * 2011-10-12 2013-05-09 Nomura Research Institute Ltd Document management device
JP2016085697A (en) * 2014-10-29 2016-05-19 株式会社野村総合研究所 Compliance check system and compliance check program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0477857A (en) * 1990-07-13 1992-03-11 Nippon Telegr & Teleph Corp <Ntt> Improper expression detecting device
JP2013084180A (en) * 2011-10-12 2013-05-09 Nomura Research Institute Ltd Document management device
JP2016085697A (en) * 2014-10-29 2016-05-19 株式会社野村総合研究所 Compliance check system and compliance check program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102229032B1 (en) * 2020-06-23 2021-03-17 주식회사 우리홈쇼핑 Device and method for providing notification for broadcast deliberation
WO2024014230A1 (en) * 2022-07-15 2024-01-18 国立研究開発法人情報通信研究機構 Speech filtering device, interaction system, context model training data generation device, and computer program

Also Published As

Publication number Publication date
JP6650901B2 (en) 2020-02-19

Similar Documents

Publication Publication Date Title
KR102329127B1 (en) Apparatus and method for converting dialect into standard language
US5930746A (en) Parsing and translating natural language sentences automatically
US20120089400A1 (en) Systems and methods for using homophone lexicons in english text-to-speech
Aqlan et al. Arabic–Chinese neural machine translation: Romanized Arabic as subword unit for Arabic-sourced translation
Fashwan et al. SHAKKIL: an automatic diacritization system for modern standard Arabic texts
JP6650901B2 (en) Utterance sentence determination apparatus, method, and program
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Saunders et al. Towards using prosody to scaffold lexical meaning in robots
US20200097549A1 (en) Semantic processing method, electronic device, and non-transitory computer readable recording medium
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
Do et al. Improving translation of emphasis with pause prediction in speech-to-speech translation systems.
JPH0682376B2 (en) Emotion information extraction device
JP4007413B2 (en) Natural language processing system, natural language processing method, and computer program
JP2005284723A (en) Natural language processing system, natural language processing method, and computer program
Behera Odia parts of speech tagging corpora: suitability of statistical models
JP4941495B2 (en) User dictionary creation system, method, and program
JP4033093B2 (en) Natural language processing system, natural language processing method, and computer program
JP2008165718A (en) Intention determination device, intention determination method, and program
JP2006243976A (en) Frequency information equipped word set generation method, program, program storage medium, frequency information equipped word set generation device, text index word production device, full text retrieval device and text classification device
KR20210012606A (en) Method of bio information analysis and storage medium storing a program for performing the same
JP3903820B2 (en) Natural language processing system, natural language processing method, and computer program
Dutkiewicz et al. Semantic extraction with use of frames
Gafurov et al. Named Entity Recognition in Natural Language Texts obtained through Audio Interfaces
JP2019087058A (en) Artificial intelligence apparatus for specifying omission in sentence
JP2010117832A (en) Related information extraction device, related information extraction method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200121

R150 Certificate of patent or registration of utility model

Ref document number: 6650901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150