JP2011113098A - Turned letter correction program and method for correcting text containing turned letter, and text analysis server - Google Patents

Turned letter correction program and method for correcting text containing turned letter, and text analysis server Download PDF

Info

Publication number
JP2011113098A
JP2011113098A JP2009265785A JP2009265785A JP2011113098A JP 2011113098 A JP2011113098 A JP 2011113098A JP 2009265785 A JP2009265785 A JP 2009265785A JP 2009265785 A JP2009265785 A JP 2009265785A JP 2011113098 A JP2011113098 A JP 2011113098A
Authority
JP
Japan
Prior art keywords
correction
character
hidden
sentence
correction rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009265785A
Other languages
Japanese (ja)
Other versions
JP5574526B2 (en
Inventor
Kazufumi Ikeda
和史 池田
Tadashi Yanagihara
正 柳原
Kazunori Matsumoto
一則 松本
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2009265785A priority Critical patent/JP5574526B2/en
Publication of JP2011113098A publication Critical patent/JP2011113098A/en
Application granted granted Critical
Publication of JP5574526B2 publication Critical patent/JP5574526B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a turned letter correction program for properly correcting a turned letter, which is detected from analysis object text information, as a word of one morpheme containing the turned letter. <P>SOLUTION: The turned letter correction program allows a computer to function as: a reference text storage means for storing correction reference text information; a turned letter extracting means for extracting one character string containing a previously registered turned letter and then dividing the character string into morphemes; a retrieval key generating means for generating a retrieval key constituted of the turned letter and at least one of the adjacent morphemes before and after the turned letter; a correction rule retrieving means for retrieving one or more correction rules similar to the turned letter with the use of the retrieval key from the analysis object text information by using the reference text storage means; and a correction rule selecting means for selecting the correction rule based on a text constitution index among the correction rules. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、インターネットに公開されるWebサイトに記述された文章情報の中で、違法・有害情報を検出する技術に関する。   The present invention relates to a technique for detecting illegal / harmful information in text information described on a website published on the Internet.

インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらのサイトの普及により、一般のユーザが、インターネットで自由に情報発信できるようになった。   With the spread of the Internet, various texts are described on blogs, bulletin boards, or Web sites that publish reviews. A “blog” is a site that is generally run by an individual and can be updated in a diary to express their opinions on current news and specialized topics. A “bulletin board” is a site for sequentially exchanging discussions with other people on various themes. Furthermore, “review comments” refers to a site where comments about things such as people's rumors can be described. With the spread of these sites, general users can freely send information on the Internet.

これに伴って、これらWebサイトに、個人や組織を誹謗及び中傷する文章や、犯罪予告の文章のような違法・有害情報が記述されることが社会的な問題となってきた。そのために、表現の自由を配慮しつつ、これら違法・有害情報を記述した個人及びWebサイトを検出する必要がある。   Along with this, it has become a social problem that illegal and harmful information such as texts that slander and slander individuals and organizations and crime notice texts are described on these Web sites. Therefore, it is necessary to detect individuals and Web sites that describe these illegal / harmful information while giving consideration to freedom of expression.

このようなWeb文書の文章内容を解析するために、少なくとも形態素解析が必要となる。形態素解析プログラムは、解析対象となる文章を形態素に分割する。英語の文章は、“This is a pen.”のように単語ごとに区切られた「分かち書き」にされている。これに対して、日本語の文章は、分かち書きされていないため、構文解析等に先立って、形態素解析による処理が必要となる。   In order to analyze the text content of such a Web document, at least morphological analysis is required. The morphological analysis program divides a sentence to be analyzed into morphemes. English sentences are divided into words such as "This is a pen." On the other hand, Japanese sentences are not separately written, and therefore processing by morphological analysis is required prior to syntax analysis or the like.

「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析プログラムは、「単語」毎に「品詞」「読み」が登録された辞書を有する。分割された形態素には、辞書を用いて「品詞」「読み」の情報が付与され、単語の配列を規定する文法規則を用いて文章を解析する。このように、形態素解析プログラムの解析精度は、辞書に依存する。そのため、辞書に登録されていない単語を含む文章は、十分な解析精度を得ることができない。   A “morpheme” refers to the smallest meaningful unit among the constituent elements of a sentence. The morphological analysis program has a dictionary in which “part of speech” and “reading” are registered for each “word”. The divided morphemes are given “part of speech” and “reading” information using a dictionary, and the sentence is analyzed using grammatical rules that define the word arrangement. Thus, the analysis accuracy of the morphological analysis program depends on the dictionary. Therefore, a sentence including words that are not registered in the dictionary cannot obtain sufficient analysis accuracy.

これに対し、違法・有害情報をWebサイトに投稿するユーザは、具体的な個人又は法人の特定を避けるべく「伏せ字」を使用する場合がある。伏せ字は、例えば以下のように用いられる。
(1)「池田和●はこう言った」
(2)「K●DI研究所チーム●本」
On the other hand, a user who posts illegal / harmful information on a Web site may use “hidden characters” to avoid specifying a specific individual or corporation. For example, the hidden character is used as follows.
(1) “Kazu Ikeda ● said this”
(2) “K DI Research Team ● Book”

「伏せ字」は、一般的に、その個人又は法人を特定できる文脈の中で、その個人又は法人の具体的な名前の一部の文字を「●」又は「○」のような記号に置き換えたものである。これにより、特定の分野の閲覧者には、その伏せ字によって置き換えられた文字を理解させると共に、直接的な検索を回避することができる。また、違法・有害情報を投稿するユーザにとっては、情報発信の責任回避をすることができる。   In general, in the context where the person or corporation can be identified, the “hidden character” replaces some characters of the specific name of the person or corporation with a symbol such as “●” or “○” Is. As a result, a viewer in a specific field can understand the character replaced by the hidden character and avoid direct search. For users who post illegal / harmful information, it is possible to avoid the responsibility of sending information.

一般に、これら伏せ字を含む文字列は、形態素解析プログラムの辞書には登録されていない。そのため、以下の理由によって、形態素解析の精度が低下する。
・伏せ字を含む文字列全体が「未知語」として解析される。
・伏せ字部分が独立して「記号」又は「未知語」として解析される。
・伏せ字の前後の文字列が伏せ字から切り離されて誤って解析される。
その結果、伏せ字を含む文章情報が、違法・有害情報として検出できないという課題があった。
Generally, a character string including these hidden characters is not registered in the dictionary of the morphological analysis program. Therefore, the accuracy of morphological analysis is reduced for the following reason.
-The entire character string including the hidden character is analyzed as an "unknown word".
-The hidden character part is independently analyzed as "symbol" or "unknown word".
-Character strings before and after the hidden character are separated from the hidden character and analyzed incorrectly.
As a result, there has been a problem that text information including hidden characters cannot be detected as illegal or harmful information.

伏せ字が未知語として検出されることに対して、従来、未知語を含む文章を形態素解析に適した文章に修正する技術がある(例えば非特許文献1参照)。Webサイトは、親しみやすさから、口語的な「くだけた表現」で記述されることが多い。「くだけた表現」には、例えば、「うっそー」「ヵゎぃぃ」(「かわいい」と読む)のようなものがある。これらの表現は、一般的に、形態素解析プログラムの辞書には登録されていないために、「未知語」として処理され、形態素解析に失敗する。   Conventionally, there is a technique for correcting a sentence including an unknown word into a sentence suitable for morphological analysis in contrast to detecting a hidden character as an unknown word (see Non-Patent Document 1, for example). Web sites are often described in colloquial “squeezed expressions” because of their friendliness. Examples of “complex expression” include “Usso” and “Kaisui” (read as “cute”). Since these expressions are generally not registered in the dictionary of the morphological analysis program, they are processed as “unknown words” and the morphological analysis fails.

この技術によれば、解析に失敗して「未知語」として出力されることを前提として、未知語を含む文章である解析対象文章を形態素解析する。そして、形態素解析の結果に基づいて、未知語の部分を任意文字列に置き換えた検索キーを生成する。生成された検索キーによって、修正基準文章から、自動的に修正候補文字列が検索され、修正候補文字列から1以上の修正ルールが生成される。生成された修正ルールは、(1)同じような文脈で頻繁に使用される表現か、(2)解析対象文章の表現から変化し過ぎていないか、(3)修正後の文章が日本語として自然か、といった指標を用いて、スコアリングされ、最適な修正ルールが選択される。解析対象文章は、選択された修正ルールによって、形態素解析に適した文章に修正される。   According to this technique, a morphological analysis is performed on an analysis target sentence that is a sentence including an unknown word, on the assumption that the analysis fails and is output as an “unknown word”. Based on the result of the morphological analysis, a search key is generated by replacing the unknown word part with an arbitrary character string. A correction candidate character string is automatically searched from the correction reference text by using the generated search key, and one or more correction rules are generated from the correction candidate character string. The generated correction rules are either (1) an expression that is frequently used in the same context, (2) whether it has changed too much from the expression of the sentence to be analyzed, or (3) the corrected sentence is in Japanese Scoring is performed using an index such as whether natural or not, and an optimal correction rule is selected. The analysis target sentence is corrected to a sentence suitable for morphological analysis according to the selected correction rule.

池田和史、柳原正、松本一則、滝嶋康弘、「くだけた表現を修正するための教師なし学習方式の提案と評価」、第8回情報科学技術フォーラム、2009Kazufumi Ikeda, Tadashi Yanagihara, Kazunori Matsumoto, Yasuhiro Takishima, “Proposal and Evaluation of Unsupervised Learning Method for Correcting Expressions”, 8th Information Science and Technology Forum, 2009

伏せ字は、一般的に、単語中の一部の文字を「●」又は「○」のような記号に置き換えるため、伏せ字の部分自体が、独立した形態素とはならない。しかしながら、非特許文献1に記載された技術によれば、未知語として検出された伏せ字を、独立する一形態素として修正しようとする。そのために、伏せ字が、形態素解析としては正しい文字に修正されたとしても、その修正自体が誤っている可能性が高い。   In general, a hidden character replaces some characters in a word with a symbol such as “●” or “◯”, so the portion of the hidden character itself does not become an independent morpheme. However, according to the technique described in Non-Patent Document 1, an attempt is made to correct a hidden character detected as an unknown word as an independent morpheme. For this reason, even if the face-down character is corrected to a correct character for morphological analysis, there is a high possibility that the correction itself is incorrect.

そこで、本発明は、解析対象文章情報の中から検出された伏せ字について、その伏せ字を含む一形態素の単語として正しく修正することができる伏せ字修正プログラム、方法及び文章解析サーバを提供することを目的とする。   Therefore, an object of the present invention is to provide a hidden character correction program, a method, and a sentence analysis server that can correctly correct a hidden character detected from analysis target sentence information as a morpheme word including the hidden character. To do.

本発明によれば、伏せ字を含む解析対象文章情報に対して、該伏せ字を修正するようにコンピュータを機能させる伏せ字修正プログラムであって、
修正基準文章情報を記憶した基準文章記憶手段と、
予め登録された伏せ字を含む1つの文字列を抽出し、該文字列を形態素に分割する伏せ字抽出手段と、
伏せ字と、当該伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
基準文章記憶手段を用いて、解析対象文章情報の中から、検索キーを用いて、伏せ字に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、
修正ルールの中から、文章構成指標に基づいて修正ルールを選択する修正ルール選択手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, for a sentence information to be analyzed including a hidden character, a hidden character correction program for causing a computer to function to correct the hidden character,
Reference sentence storage means for storing corrected reference sentence information;
A hidden character extracting means for extracting one character string including a previously registered hidden character and dividing the character string into morphemes;
Search key generating means for generating a search key comprising a hidden character and at least one of the adjacent morphemes in front of and behind the hidden character;
A correction rule search means for searching for one or more correction rules that approximate a hidden character by using a search key from the analysis target sentence information using the reference sentence storage means;
The computer is caused to function as a correction rule selecting means for selecting a correction rule from correction rules based on a sentence composition index.

本発明の伏せ字修正プログラムにおける他の実施形態によれば、
修正ルールを適用した修正後文字列を仮に生成し、修正後文字列を形態素に分割し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する修正ルール判定手段と、
連結する場合、修正後文字列を解析対象文章情報に適用し、連結しない場合、修正前文字列を解析対象文章情報に適用する修正ルール適用手段と
してコンピュータを更に機能させることも好ましい。
According to another embodiment of the program for correcting overlaid characters of the present invention,
Whether or not a corrected character string to which a correction rule is applied is temporarily generated, the corrected character string is divided into morphemes, and a character corresponding to the cover character is connected to at least one of the front and rear characters to form one morpheme Correction rule determination means for determining whether or not
In the case of connection, it is preferable that the computer is further functioned as correction rule application means for applying the corrected character string to the analysis target sentence information, and in the case of not connecting, applying the uncorrected character string to the analysis target sentence information.

本発明の伏せ字修正プログラムにおける他の実施形態によれば、
検索キー生成手段は、伏せ字を正規表現として、検索キーを生成するようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the program for correcting overlaid characters of the present invention,
Preferably, the search key generation means further causes the computer to function to generate a search key using the hidden character as a regular expression.

本発明の伏せ字修正プログラムにおける他の実施形態によれば、
伏せ字抽出手段によって1つの文字列から複数の伏せ字が抽出された際に、
検索キー生成手段は、複数の伏せ字同士が所定文字数以下で近接している場合、1つの検索キーとして構成するようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the program for correcting overlaid characters of the present invention,
When multiple hidden characters are extracted from one character string by the hidden character extraction means,
Preferably, the search key generation means further causes the computer to function as a single search key when a plurality of hidden characters are close to each other with a predetermined number of characters or less.

本発明の伏せ字修正プログラムにおける他の実施形態によれば、
解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であるようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the program for correcting overlaid characters of the present invention,
It is also preferred that the computer further function so that the text information to be analyzed is text information described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via the network.

本発明の伏せ字修正プログラムにおける他の実施形態によれば、
修正ルール選択手段は、文章構成指標として、(1)当該修正ルールにおける出現頻度、(2)伏せ字と修正ルールに基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて1つの修正ルールを選択するようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the program for correcting overlaid characters of the present invention,
The correction rule selection means includes (1) the appearance frequency in the correction rule, (2) the edit distance between the cover letter and the correction morpheme based on the correction rule, and / or (3) before and after correction as a sentence composition index. It is also preferable to further cause the computer to function so as to select one correction rule based on the difference between the morphological analysis cost value and the later one.

本発明の伏せ字修正プログラムにおける他の実施形態によれば、
伏せ字が修正された解析対象文章情報に対して、予め登録された違法・有害キーワードを含むか否かを判定する違法有害情報検出手段を更に有するようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the program for correcting overlaid characters of the present invention,
It is also preferable that the computer further function so as to further include illegal harmful information detecting means for determining whether or not to include the illegal / harmful keyword registered in advance with respect to the analysis target sentence information in which the hidden character is corrected.

本発明によれば、伏せ字を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該伏せ字を修正する文章解析サーバであって、
修正基準文章情報を記憶した基準文章記憶手段と、
予め登録された伏せ字を含む1つの文字列を抽出し、該文を形態素に分割する伏せ字抽出手段と、
伏せ字と、当該伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
基準文章記憶手段を用いて、解析対象文章情報の中から、検索キーを用いて、伏せ字に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、
修正ルールの中から、文章構成指標に基づいて修正ルールを選択する修正ルール選択手段と
を有することを特徴とする。
According to the present invention, it is a sentence analysis server that acquires analysis target sentence information including a hidden character from another public server via a network, and corrects the hidden character,
Reference sentence storage means for storing corrected reference sentence information;
A hidden character extracting means for extracting one character string including a previously registered hidden character and dividing the sentence into morphemes;
Search key generating means for generating a search key comprising a hidden character and at least one of the adjacent morphemes in front of and behind the hidden character;
A correction rule search means for searching for one or more correction rules that approximate a hidden character by using a search key from the analysis target sentence information using the reference sentence storage means;
And a correction rule selection means for selecting a correction rule based on a sentence composition index from among the correction rules.

本発明の文章解析サーバにおける他の実施形態によれば、
修正ルールを適用した修正後文字列を仮に生成し、修正後文字列を形態素に分割し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する修正ルール判定手段と、
連結する場合、修正後文字列を解析対象文章情報に適用し、連結しない場合、修正前文字列を解析対象文章情報に適用する修正ルール適用手段と
を更に有することも好ましい。
According to another embodiment of the sentence analysis server of the present invention,
Whether or not a corrected character string to which a correction rule is applied is temporarily generated, the corrected character string is divided into morphemes, and a character corresponding to the cover character is connected to at least one of the front and rear characters to form one morpheme Correction rule determination means for determining whether or not
It is preferable to further include correction rule application means for applying the corrected character string to the analysis target sentence information when connecting, and applying the pre-correction character string to the analysis target sentence information when not connecting.

本発明の伏せ字修正プログラム、方法及び文章解析サーバによれば、解析対象文章情報の中から検出された伏せ字について、その伏せ字を含む一形態素の単語として正しく修正することができる。これにより、伏せ字を含む文章情報であっても形態素解析の精度が高くなり、伏せ字を含む違法・有害情報の検出の精度が高くなる。   According to the program for correcting hidden characters, the method, and the sentence analysis server of the present invention, the hidden characters detected from the analysis target sentence information can be corrected correctly as a morpheme word including the hidden characters. This increases the accuracy of morphological analysis even for text information including hidden characters, and increases the accuracy of detecting illegal / harmful information including hidden characters.

本発明における伏せ字修正プログラムの機能構成図である。It is a functional block diagram of the hidden character correction program in this invention. 本発明における修正ルール判定及び修正ルール適用の説明図である。It is explanatory drawing of the correction rule determination and correction rule application in this invention. 本発明における文章解析サーバのシステム構成図である。It is a system configuration | structure figure of the text analysis server in this invention. 本発明におけるシステムのシーケンス図である。It is a sequence diagram of a system in the present invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明における伏せ字修正プログラムの機能構成図である。   FIG. 1 is a functional configuration diagram of the program for correcting a hidden character in the present invention.

図1によれば、伏せ字修正プログラム1は、基準文章記憶部11と、伏せ字記憶部12と、伏せ字抽出部13と、検索キー生成部14と、修正ルール検索部15と、修正ルール選択部17と、修正ルール判定部16と、修正ルール適用部18とを有する。基準文章記憶部11を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、コンピュータを用いた伏せ字修正方法として実行できる。   According to FIG. 1, the hidden character correction program 1 includes a reference sentence storage unit 11, a hidden character storage unit 12, a hidden character extraction unit 13, a search key generation unit 14, a correction rule search unit 15, and a correction rule selection unit 17. And a correction rule determination unit 16 and a correction rule application unit 18. These functional units other than the reference text storage unit 11 can be realized by executing a program that causes a computer installed in the apparatus to function. The processing flow of each functional unit can be executed as a hidden character correction method using a computer.

基準文章記憶部11は、修正基準文章情報の集合を記憶する。修正基準文章には、例えば、新聞記事の文章のような形態素解析の解析精度が高い文章が用いられる。   The reference sentence storage unit 11 stores a set of corrected reference sentence information. For example, a sentence with high analysis accuracy of morphological analysis such as a sentence of a newspaper article is used as the correction reference sentence.

伏せ字記憶部12は、修正対象の伏せ字を予め登録し、記憶する。伏せ字には、例えば「●」、「○」、「■」、「□」又は「×」がある。伏せ字記憶部12は、伏せ字抽出部13によって参照される。   The hidden character storage unit 12 registers and stores the hidden character to be corrected in advance. For example, there are “●”, “◯”, “■”, “□”, or “×” as the face-down character. The hidden character storage unit 12 is referred to by the hidden character extraction unit 13.

伏せ字抽出部13は、解析対象文章情報を入力する。解析対象文章情報は、Webサイトに公開されているブログ、掲示板又はクチコミコメントのような不特定多数のユーザによって記述された文章情報であってもよい。そして、伏せ字抽出部13は、伏せ字記憶部12に予め登録された伏せ字を、解析対象文章情報から検索する。解析対象文章に伏せ字が含まれている場合、伏せ字抽出部13は、その解析対象文章情報から、予め登録された伏せ字を含む1つの文字列を抽出する。伏せ字を含む文字列は、伏せ字を含む一文又は一文節であってもよいし、伏せ字とその前後の一定の長さからなる文字列の組み合わせであってもよい。   The hidden character extraction unit 13 inputs analysis target sentence information. The analysis target sentence information may be sentence information described by an unspecified number of users such as a blog, a bulletin board, or a word-of-mouth comment published on a website. Then, the hidden character extraction unit 13 searches for the hidden characters registered in advance in the hidden character storage unit 12 from the analysis target sentence information. If the analysis target sentence includes a hidden character, the hidden character extraction unit 13 extracts one character string including the previously registered hidden character from the analysis target sentence information. The character string including the hidden character may be one sentence or one sentence including the hidden character, or may be a combination of the character string including the hidden character and a certain length before and after the character.

次に、伏せ字抽出部13は、抽出した伏せ字を含む文字列を、形態素解析によって形態素に分割する。ここで、「池田和●は」という伏せ字を含む文字列を例に挙げて説明する。
伏せ字を含む文字列:池田和●は
形態素解析結果 :池田/和/●(未知語又は記号)/は
伏せ字は、一般に、形態素解析用辞書に登録されていないので、「●」は未知語として処理される。但し、伏せ字が、「記号」として形態素解析辞書に登録されている場合、「●」は「記号」として解析される。
Next, the hidden character extraction unit 13 divides the character string including the extracted hidden characters into morphemes by morphological analysis. Here, a character string including the face-down character “Kazu Ikeda ●” will be described as an example.
Character string including hidden characters: Kazu Ikeda ● is a morphological analysis result: Ikeda / Kazu / ● (unknown word or symbol) / is a hidden character is generally not registered in the dictionary for morphological analysis, so “●” is an unknown word It is processed. However, if the concealed character is registered in the morphological analysis dictionary as “symbol”, “●” is analyzed as “symbol”.

伏せ字抽出部13は、形態解析された伏せ字を含む文字列を、検索キー生成部14へ出力する。また、伏せ字抽出部13は、伏せ字が検出された解析対象文章情報を、修正ルール適用部18へ出力する。   The hidden character extraction unit 13 outputs a character string including the hidden character whose form has been analyzed to the search key generation unit 14. Further, the hidden character extraction unit 13 outputs the analysis target sentence information in which the hidden character is detected to the correction rule application unit 18.

検索キー生成部14は、形態素毎に分割された伏せ字を含む文字列を入力する。検索キー生成部14は、伏せ字と、その伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる「検索キー」を生成する。ここで、伏せ字と、それに隣接する前方の2形態素と、後方の1形態素とが、検索キーの生成に利用されたものとして説明する。
入力文字列 :池田/和/●/は
検索キー :池田和*は(ここで、「*」は、1以上の任意文字列を示す。)
The search key generation unit 14 inputs a character string including a hidden character divided for each morpheme. The search key generation unit 14 generates a “search key” composed of a hidden character and at least one of the adjacent morphemes in front of and behind the hidden character. Here, the explanation will be made assuming that the concealed character, the front two morphemes adjacent thereto, and the rear one morpheme are used for generating the search key.
Input character string: Ikeda / Wa / ● / is a search key: Ikeda Kazu * (where "*" indicates one or more arbitrary character strings)

検索キー生成部14は、伏せ字を正規表現(例えば、ワイルドカードを表す「*」)とし、正規表現と、伏せ字に隣接する文字列とを合わせた検索キーを生成する。勿論、正規表現は、任意の一文字にマッチングするもの(例えば、正規表現で任意の一文字を表す「?」)であってもよい。   The search key generation unit 14 generates a search key that combines the regular expression and the character string adjacent to the hidden character, using the hidden character as a regular expression (for example, “*” representing a wild card). Of course, the regular expression may be one that matches any single character (for example, “?” That represents any single character in the regular expression).

伏せ字抽出部13で抽出された1つの文字列に複数の伏せ字が含まれていた場合、検索キー生成部14は、これらの伏せ字同士が所定文字数以下で近接していれば、複数の正規表現を含む検索キーを生成する。ここで、「K●DI研究所池田和●は」という伏せ字を含む文字列を例に挙げて説明する。
入力文字列 :K/●/DI/研究所/池田/和/●/は
検索キー :K*DI研究所池田和*は
(ここで、「*」は、1以上の任意文字列を示す。)
If a single character string extracted by the hidden character extraction unit 13 includes a plurality of hidden characters, the search key generation unit 14 can display a plurality of regular expressions if these hidden characters are close to each other with a predetermined number of characters or less. Generate a search key containing. Here, a character string including a hidden character “K • DI Institute Kazu Ikeda •” will be described as an example.
Input character string: K / ● / DI / Laboratory / Ikeda / Wa / ● / is a search key: K * DI Laboratories Ikeda * (where “*” indicates one or more arbitrary character strings). )

また、隣接する形態素は、伏せ字に対する前方及び後方の少なくとも一方があればよい。勿論、隣接する形態素が、2形態素以上連続するものであってもよい。また、伏せ字も、2以上連続するものであってもよい。検索キー生成部14は、生成した検索キーを修正ルール検索部15へ出力する。   Moreover, the adjacent morpheme should just have at least one of the front and back with respect to a hidden character. Of course, two or more adjacent morphemes may be continuous. Further, two or more concealed characters may be continuous. The search key generation unit 14 outputs the generated search key to the correction rule search unit 15.

修正ルール検索部15は、検索キーを入力する。修正ルール検索部15は、基準文章記憶部11から、「検索キー」を含む修正候補文字列を検索する。そして、修正ルール検索部15は、抽出した修正候補文字列中の正規表現に該当する部分を、伏せ字に近似する部分と判断し、修正ルールとして抽出する。修正ルールとは、伏せ字を含む文字列(例えば「池田和●」)から、修正候補文字列(例えば、「池田和史」)へ文字列変換するためのルールをいう。   The correction rule search unit 15 inputs a search key. The correction rule search unit 15 searches the reference sentence storage unit 11 for a correction candidate character string including the “search key”. Then, the correction rule search unit 15 determines that the part corresponding to the regular expression in the extracted correction candidate character string is a part that approximates the hidden character, and extracts it as a correction rule. The correction rule refers to a rule for character string conversion from a character string including a hidden character (for example, “Kazushi Ikeda”) to a correction candidate character string (for example, “Kazufumi Ikeda”).

修正ルール検索部15は、例えば、検索により、以下の修正候補文字列を得る。修正ルール検索部15は、抽出した修正候補文字列中の正規表現に該当する部分から、1以上の修正ルールを抽出する。ここで、「池田和●はこう言った」という伏せ字を含む文字列を例に挙げて説明する。
検索キー :池田和*は(ここで、「*」は、1以上の任意文字列を示す。)
修正候補文字列:池田和/史/は
池田和/歌子/は
池田和/について/は
池田和/と/は
修正ルール :●⇒史
●⇒歌子
●⇒について
●⇒と
For example, the correction rule search unit 15 obtains the following correction candidate character strings by searching. The correction rule search unit 15 extracts one or more correction rules from the portion corresponding to the regular expression in the extracted correction candidate character string. Here, an explanation will be given by taking as an example a character string that includes the face-down character “Kazu Ikeda ● said.”
Search key: Ikeda Kazu * (where "*" indicates one or more arbitrary character strings)
Correction candidate string: Kazu Ikeda / History / Ha
Kazu Ikeda / Utako / Ha
Kazu Ikeda / About / Ha
Kazu Ikeda / to / has revised rule: ● ⇒ History
● ⇒Singer
● ⇒
● ⇒ and

検索キーによる検索によって得られる修正ルールは、2以上であってもよい。修正ルール検索部15は、検索キーによる検索によって得た全ての修正ルールを、修正ルール判定部16へ出力する。   Two or more correction rules may be obtained by a search using a search key. The correction rule search unit 15 outputs all the correction rules obtained by the search using the search key to the correction rule determination unit 16.

修正ルール判定部16は、全ての修正ルールを適用した修正後文字列を仮に生成し、その修正後文字列を形態素解析し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する。連結して1形態素を構成する修正ルールが1つ以上あれば、修正ルール判定部16は、それらの修正ルールを修正ルール選択部17へ出力する。一方、連結して1形態素を構成する修正ルールが1つもなければ、修正ルール判定部16は、修正前文字列を修正ルール適用部18へ出力してもよい。   The correction rule determination unit 16 temporarily generates a corrected character string to which all correction rules are applied, morphologically analyzes the corrected character string, and the character corresponding to the cover character is connected to at least one of the front and rear characters It is then determined whether or not one morpheme is configured. If there are one or more correction rules that are connected to form one morpheme, the correction rule determination unit 16 outputs the correction rules to the correction rule selection unit 17. On the other hand, if there is no correction rule that is connected to form one morpheme, the correction rule determination unit 16 may output the pre-correction character string to the correction rule application unit 18.

修正ルール選択部17は、入力された修正ルールが2以上ある場合は、文章構成指標に基づいて文脈に適した1つの修正ルールを選択する。   When there are two or more input correction rules, the correction rule selection unit 17 selects one correction rule suitable for the context based on the sentence composition index.

文章構成指標は、(1)修正ルールにおける出現頻度、(2)伏せ字と、修正ルールに基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分から算出される指標をいう。修正ルール選択部17は、この文章構成指標に基づいて1つの修正ルールを選択する。   The sentence composition index includes (1) the appearance frequency in the correction rule, (2) the edit distance between the hidden letter and the corrected morpheme based on the correction rule, and / or (3) the morphological analysis cost before and after the correction. An index calculated from the difference between values. The correction rule selection unit 17 selects one correction rule based on the sentence composition index.

修正ルール選択部17は、例えば、以下の修正ルールを入力したとする。
修正ルール :●⇒史
●⇒歌子
For example, it is assumed that the correction rule selection unit 17 inputs the following correction rule.
Correction rule: ● ⇒ History
● ⇒Singer

(1)修正ルールにおける出現頻度
修正ルールにおける出現頻度は、検索された修正ルールに該当する検索結果文字列が出現した頻度をいう。以下の表では、検索結果文字列の出現頻度に基づくスコアリングの例を表す。

Figure 2011113098
(1) Appearance Frequency in Correction Rule The appearance frequency in the correction rule refers to the frequency at which the search result character string corresponding to the searched correction rule appears. The following table shows an example of scoring based on the appearance frequency of the search result character string.
Figure 2011113098

出現頻度が高い文字列は、伏せ字が出現した文脈と類似した文脈の中で頻繁に利用される表現であると考えられ、修正候補文字列である可能性が高い。一方、類似した文脈の中であまり利用されていない表現は、修正候補文字列ではない可能性が高い。そこで、出現頻度の高い修正ルールは、スコアが高くなる。スコアは、出現頻度を検索件数で割り、正規化することにより、検索件数に依存しないものとしてもよい。   A character string having a high appearance frequency is considered to be an expression that is frequently used in a context similar to the context in which the hidden character appears, and is likely to be a correction candidate character string. On the other hand, an expression that is not frequently used in a similar context is highly likely not to be a correction candidate character string. Therefore, the correction rule having a high appearance frequency has a high score. The score may be independent of the number of searches by dividing the appearance frequency by the number of searches and normalizing the score.

(2)伏せ字と、修正ルールに基づく修正形態素との間の編集距離
編集距離とは、二つの文字列がどの程度異なっているかを表す指標であり、一方の文字列を他方の文字列に変換するために必要な挿入、削除、置換の最小回数として与えられる。修正ルールに基づく修正形態素は、未知語に対して少数文字の挿入や削除、置換を実行したものであることが多い。例えば、「フォーラム」から「ファーム」への編集は、「ォ」を「ァ」に置換し、「ラ」を削除する方法が、最小の編集回数である2回となるため、編集距離は2である。以下の表は、編集距離に基づくスコアリングの例を表す。編集距離の小さい修正ルールは、スコアが高くなる。

Figure 2011113098
(2) Edit distance between face-down characters and corrected morphemes based on correction rules Edit distance is an index that indicates how different two character strings are, and converts one character string into the other. Is given as the minimum number of insertions, deletions, and substitutions necessary to do. In many cases, a modified morpheme based on a modification rule is obtained by inserting, deleting, or replacing a small number of characters in an unknown word. For example, in the editing from “Forum” to “Farm”, the method of replacing “o” with “a” and deleting “La” is the minimum number of editing times, so the editing distance is 2 It is. The following table shows an example of scoring based on edit distance. A correction rule with a small editing distance has a high score.
Figure 2011113098

(3)形態素解析コスト値の差分
形態素解析コスト値とは、複数ある単語区切りの中で、その単語区切りがどのくらい確からしいかを表す指標である。形態素解析コスト値は、例えば、単語単体での出現確率(生起コスト)や複数単語が連続して出現する確率(連接コスト)から算出される。形態素解析コスト値は、修正ルールの文脈における適応度を評価する指標として用いられる。
(3) Difference in morpheme analysis cost value The morpheme analysis cost value is an index representing how probable the word break is among a plurality of word breaks. The morpheme analysis cost value is calculated from, for example, the appearance probability (occurrence cost) of a single word or the probability that a plurality of words appear continuously (concatenation cost). The morphological analysis cost value is used as an index for evaluating the fitness in the context of the correction rule.

文全体の形態素解析コスト値は、文頭から文末までの各形態素の連接コストと単語生起コストとの和を累積して算出する(累積コスト)。修正ルールの適用により、文脈における適応度が高い表現が生成された場合、その表現周辺の生起コストや連接コストは小さくなるため、文全体の形態素解析コスト値は小さくなる。一方、文脈における適応度が低い表現が生成された場合、その表現周辺の生起コストや連接コストは大きくなるため、文全体の形態素解析コスト値は大きくなる。   The morpheme analysis cost value of the entire sentence is calculated by accumulating the sum of the concatenation cost of each morpheme from the beginning of the sentence to the end of the sentence and the word occurrence cost (accumulated cost). When an expression having a high degree of fitness in context is generated by applying the correction rule, the occurrence cost and the concatenation cost around the expression are reduced, so the morphological analysis cost value of the entire sentence is reduced. On the other hand, when an expression with low fitness in the context is generated, the occurrence cost and the connection cost around the expression increase, and the morphological analysis cost value of the entire sentence increases.

ここでは、修正ルール適用後の文全体の形態素解析コスト値と、修正前の文全体の形態素解析コスト値との差分から、形態素解析コスト値に基づくスコアとして算出する。修正ルールによって生成された表現が文脈に適応する場合、算出されるスコアは高くなる。   Here, a score based on the morphological analysis cost value is calculated from the difference between the morphological analysis cost value of the entire sentence after application of the correction rule and the morphological analysis cost value of the entire sentence before the correction. If the expression generated by the correction rule adapts to the context, the calculated score will be high.

文章構成指標(score)は、(1)修正ルールにおける出現頻度(freq)、(2)伏せ字と、修正ルールに基づく修正形態素との間の編集距離(dist)、及び/又は、(3)形態素解析コスト値の差分(cost)から、例えば、以下の計算式により算出する。
score=α・freq+β・dist+γ・cost
ここで、α、β、γは、重み付け関数であり、修正ルールの適用と学習により、最適値を算出することができる。また、修正ルールは、適用する閾値を設定することができる。閾値を低く設定した場合、適用される修正ルールは増加するが、その中に含まれる修正ルールの誤適用も増加する。一方、閾値を高く設定した場合、適用される修正ルールは減少するが、その中に含まれる修正ルールの誤適用も減少させることができる。
The sentence composition index (score) includes (1) the appearance frequency (freq) in the correction rule, (2) the edit distance (dist) between the hidden letter and the correction morpheme based on the correction rule, and / or (3) the morpheme From the difference (cost) of the analysis cost value, for example, it is calculated by the following calculation formula.
score = α ・ freq + β ・ dist + γ ・ cost
Here, α, β, and γ are weighting functions, and optimum values can be calculated by applying and learning correction rules. The correction rule can set a threshold value to be applied. When the threshold is set low, the number of correction rules to be applied increases, but the erroneous application of the correction rules included therein also increases. On the other hand, when the threshold value is set high, the number of correction rules to be applied decreases, but the erroneous application of the correction rules included therein can also be reduced.

修正ルール選択部17は、文章構成指標に基づいて、修正ルールを選択する。勿論、複数の修正ルールが選択されてもよい。また、修正ルール選択部17は、閾値以上且つ最大のスコアを持つ修正ルールを選択してもよい。修正ルール選択部17は、選択した1つの修正ルールを、修正ルール適用部18へ出力する。   The correction rule selection unit 17 selects a correction rule based on the sentence composition index. Of course, a plurality of correction rules may be selected. Further, the correction rule selection unit 17 may select a correction rule having a maximum score that is equal to or greater than a threshold value. The correction rule selection unit 17 outputs the selected one correction rule to the correction rule application unit 18.

修正ルール適用部18は、解析対象文章情報を入力する。修正ルール選択部17から修正ルールを入力した場合、修正ルール適用部18は、修正ルールを、解析対象文章情報に適用する。一方、修正ルール判定部16から判定結果を入力した場合、修正ルール適用部18は、修正前文字列を、解析対象文章に適用してもよい。   The correction rule application unit 18 inputs analysis target sentence information. When the correction rule is input from the correction rule selection unit 17, the correction rule application unit 18 applies the correction rule to the analysis target sentence information. On the other hand, when the determination result is input from the correction rule determination unit 16, the correction rule application unit 18 may apply the pre-correction character string to the analysis target sentence.

本発明の特徴は、解析対象文章に対して、適切な修正ルールを適用することにある。従って、修正ルール判定部16における実施形態を、以下の図2によって説明する。   The feature of the present invention is that an appropriate correction rule is applied to the analysis target sentence. Therefore, an embodiment in the correction rule determination unit 16 will be described with reference to FIG.

図2は、本発明における修正ルール判定の説明図である。   FIG. 2 is an explanatory diagram of correction rule determination in the present invention.

(S21)修正ルール判定部16は、修正ルールを適用した修正後文字列を仮に生成し、その修正後文字列を形態素に分割する。形態素解析の結果、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する。勿論、伏せ字に対応する文字が、前方及び後方の双方の文字と連結して1形態素を構成していてもよい。 (S21) The correction rule determination unit 16 temporarily generates a corrected character string to which the correction rule is applied, and divides the corrected character string into morphemes. As a result of the morphological analysis, it is determined whether or not the character corresponding to the hidden character is connected to at least one of the front and rear characters to form one morpheme. Of course, the characters corresponding to the hidden characters may be connected to both the front and rear characters to form one morpheme.

(S22)ここで、「池田和●はこう言った」という伏せ字を含む解析対象文章を例に挙げて説明する。解析対象文章情報に対して、修正後文字列「池田和史は」及び「池田和には」が、仮に生成される。 (S22) Here, an explanation will be given by taking as an example a sentence to be analyzed that includes a hidden character such as “Kazu Ikeda ● said,”. For the analysis target sentence information, corrected character strings “Kazufumi Ikeda” and “To Kazu Ikeda” are temporarily generated.

「池田和史は」の例では、置き換えられた文字「史」が、前方の文字「和」と連結して、1形態素を構成する。
解析対象文章 :池田和●はこう言った
仮生成された修正後文字列:池田和史は
形態素解析結果 :池田/和史/は
この場合、修正ルール判定部16は、修正ルールを修正ルール選択部17へ出力する。
In the example of “Kazufumi Ikeda”, the replaced character “History” is connected to the preceding character “Wa” to form one morpheme.
Analysis target sentence: Kazu Ikeda ● Had said: Temporarily generated corrected character string: Kazufumi Ikeda is a morphological analysis result: Ikeda / Kazufumi / ha In this case, the correction rule determination unit 16 selects a correction rule as a correction rule To the unit 17.

(S23)これに対して、「池田和には」の例では、置き換えられた文字「に」が、前方の文字「和」とも、後方の文字「は」とも連結せず、「に」のみで1形態素を構成する。
解析対象文章 :池田和●はこう言った
仮生成された修正後文字列:池田和には
形態素解析結果 :池田/和/に/は
この場合、修正ルール判定部16は、修正ルールを修正ルール選択部17へ出力しない。
(S23) On the other hand, in the example of “Ikeda Kazu ni”, the replaced character “ni” is not concatenated with the front character “sum” or the rear character “ha”, but only with “ni”. Constitute one morpheme.
Analyzed text: Kazu Ikeda ● Had said: Temporarily generated corrected character string: To Kazu Ikeda Morphological analysis result: Ikeda / Kazu / Ni / ha In this case, the correction rule determination unit 16 sets the correction rule as a correction rule. The data is not output to the selection unit 17.

(S24)入力した修正ルール中に、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するものがない場合、修正ルール判定部16は、判定結果を修正ルール適用部18へ出力してもよい。修正ルール適用部18は、修正前文字列を解析対象文章に適用してもよい。この場合、解析対象文章は、「池田和●はこう言った」のまま修正されない。 (S24) In the input correction rule, when there is no character corresponding to the hidden character connected to at least one of the front and rear characters to form one morpheme, the correction rule determination unit 16 corrects the determination result You may output to the rule application part 18. FIG. The correction rule application unit 18 may apply the pre-correction character string to the analysis target sentence. In this case, the sentence to be analyzed is not amended as “Kazu Ikeda has said this”.

図3は、本発明における文章解析サーバのシステム構成図である。   FIG. 3 is a system configuration diagram of the sentence analysis server in the present invention.

図3によれば、文章解析サーバ2は、通信インタフェース部20と、解析対象文章入力部21と、伏せ字修正機能部22とを有する。文章解析サーバ2は、通信インタフェース部20を介してインターネットに接続する。   According to FIG. 3, the sentence analysis server 2 includes a communication interface unit 20, an analysis target sentence input unit 21, and a hidden character correction function unit 22. The sentence analysis server 2 connects to the Internet via the communication interface unit 20.

また、図3によれば、文章解析サーバ2は、インターネットを介して、Webサーバ3と通信することができる。また、Webサーバ3は、投稿者用端末4から接続される。   Moreover, according to FIG. 3, the text analysis server 2 can communicate with the Web server 3 via the Internet. The Web server 3 is connected from the poster terminal 4 for contributors.

Webサーバ3は、投稿者用端末4から受信した、解析対象文章であるブログテキスト及びクチコミコメントのようなWeb文書を公開する。文章解析サーバ2は、インターネットを介して、Webサーバ3から、そのWeb文書を解析対象文章として取得する。   The Web server 3 publishes Web documents such as blog text and word-of-mouth comments, which are analysis target sentences, received from the poster terminal 4. The sentence analysis server 2 acquires the Web document as an analysis target sentence from the Web server 3 via the Internet.

解析対象文章入力部21は、通信インタフェース部20を介して、解析対象文章を受信する。その解析対象文章を、伏せ字修正機能部22へ出力される。   The analysis target sentence input unit 21 receives the analysis target sentence via the communication interface unit 20. The analysis target sentence is output to the covert letter correction function unit 22.

伏せ字修正機能部22は、図1で前述した機能構成部と全く同様である。伏せ字修正機能部22は、解析対象文章入力部21から解析対象文章を入力し、修正後文章を出力する。   The hidden character correction function unit 22 is exactly the same as the function configuration unit described above with reference to FIG. The hidden character correction function unit 22 inputs an analysis target sentence from the analysis target sentence input unit 21 and outputs a corrected sentence.

図4は、本発明におけるシステムのシーケンス図である。   FIG. 4 is a sequence diagram of the system according to the present invention.

(S401)投稿者用端末4は、解析対象文章であるブログテキストをWebサーバ3へ投稿する。
(S402)文章解析サーバ2は、Webサーバ3から解析対象文章情報(「池田和●はこう言った」)を受信する。その解析対象文章は、伏せ字修正機能部22へ出力される。
(S403)伏せ字修正機能部22は、予め登録された伏せ字を解析対象文章情報から検索する。解析対象文章に伏せ字が含まれている場合、伏せ字修正機能部22は、その解析対象文章情報から、予め登録された伏せ字を含む1つの文字列を抽出する。伏せ字修正機能部22は、更に、その文字列を形態素解析によって形態素に分割する。
(S404)伏せ字修正機能部22は、S403で抽出した伏せ字と、その伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する。
(S405)伏せ字修正機能部22は、修正基準文章情報の中から、検索キーを用いて、伏せ字に近似する1つ以上の修正ルールを検索する。
(S406)伏せ字修正機能部22は、修正ルールを適用した修正後文字列を仮に生成し、その修正後文字列を形態素に分割し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する。
(S407)伏せ字修正機能部22は、S406で連結して1形態素を構成すると判定された修正ルールの中から、文章構成指標に基づいて1つの修正ルールを選択する。
(S408)伏せ字修正機能部22は、選択された1つの修正ルールを解析対象文章情報に適用し、修正後文章(「池田和史はこう言った」)を出力する。
(S401) The contributor terminal 4 posts the blog text, which is the analysis target sentence, to the Web server 3.
(S402) The sentence analysis server 2 receives the analysis target sentence information (“Kazu Ikeda ● said this”) from the Web server 3. The analysis target sentence is output to the covert letter correction function unit 22.
(S403) The hidden character correction function unit 22 searches the previously registered hidden character from the analysis target sentence information. When the analysis target sentence includes a hidden character, the hidden character correction function unit 22 extracts one character string including the previously registered hidden character from the analysis target sentence information. The hidden character correction function unit 22 further divides the character string into morphemes by morphological analysis.
(S404) The hidden character correcting function unit 22 generates a search key including the hidden character extracted in S403 and at least one of the adjacent morphemes in front and rear of the hidden character.
(S405) The hidden character correction function unit 22 searches the correction reference text information for one or more correction rules that approximate the hidden character using a search key.
(S406) The covert character correcting function unit 22 temporarily generates a corrected character string to which the correction rule is applied, divides the corrected character string into morphemes, and the character corresponding to the covert character is at least one of the front and rear characters To determine whether one morpheme is configured.
(S407) The hidden character correction function unit 22 selects one correction rule based on the sentence composition index from among the correction rules determined to be connected in S406 to form one morpheme.
(S408) The covert-letter correction function unit 22 applies the selected correction rule to the analysis target sentence information, and outputs the corrected sentence (“Kazufumi Ikeda said this”).

以上、詳細に説明したように、本発明の伏せ字修正プログラム、方法及び文章解析サーバによれば、解析対象文章情報の中から検出された伏せ字について、その伏せ字を含む一形態素の単語として正しく修正することができる。これにより、伏せ字を含む文章情報であっても形態素解析の精度が高くなり、伏せ字を含む違法・有害情報の検出の精度が高くなる。   As described above in detail, according to the program for correcting hidden characters, the method, and the sentence analysis server of the present invention, the hidden characters detected in the analysis target sentence information are correctly corrected as a morpheme word including the hidden characters. be able to. This increases the accuracy of morphological analysis even for text information including hidden characters, and increases the accuracy of detecting illegal / harmful information including hidden characters.

本発明によって検出された違法・有害情報を記述したWebサイトに対するアクセスを防止するフィルタリングの技術にも適用される。フィルタリングとは、ユーザがアクセスしようとしたWebサイトが違法・有害情報を記述したものである場合、そのWebサイトへのアクセスを防止する技術をいう。   The present invention is also applied to a filtering technique for preventing access to a website describing illegal / harmful information detected by the present invention. Filtering refers to a technique for preventing access to a website when the website that the user is trying to access describes illegal or harmful information.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 伏せ字修正プログラム
11 基準文章記憶部
12 伏せ字記憶部
13 伏せ字抽出部
14 検索キー生成部
15 修正ルール検索部
16 修正ルール判定部
17 修正ルール選択部
18 修正ルール適用部
2 文章解析サーバ
20 通信インタフェース部
21 解析対象文章入力部
22 伏せ字修正機能部
3 Webサーバ
4 投稿用端末
DESCRIPTION OF SYMBOLS 1 Fuzzy character correction program 11 Reference text memory | storage part 12 Fuzzy character memory | storage part 13 Fuzzy character extraction part 14 Search key generation part 15 Correction rule search part 16 Correction rule determination part 17 Correction rule selection part 18 Correction rule application part 2 Text analysis server 20 Communication interface part 21 analysis object sentence input part 22 obscure character correction function part 3 Web server 4 posting terminal

Claims (11)

伏せ字を含む解析対象文章情報に対して、該伏せ字を修正するようにコンピュータを機能させる伏せ字修正プログラムであって、
修正基準文章情報を記憶した基準文章記憶手段と、
予め登録された伏せ字を含む1つの文字列を抽出し、該文字列を形態素に分割する伏せ字抽出手段と、
前記伏せ字と、当該伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記基準文章記憶手段を用いて、前記解析対象文章情報の中から、前記検索キーを用いて、前記伏せ字に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、
1つ以上の前記修正ルールの中から、文章構成指標に基づいて1つの修正ルールを選択する修正ルール選択手段と
してコンピュータを機能させることを特徴とする伏せ字修正プログラム。
A hidden character correction program for causing a computer to function to correct a hidden character for analysis target sentence information including the hidden character,
Reference sentence storage means for storing corrected reference sentence information;
A hidden character extracting means for extracting one character string including a previously registered hidden character and dividing the character string into morphemes;
Search key generating means for generating a search key comprising the hidden character and at least one of the adjacent morphemes in front of and behind the hidden character;
Correction rule search means for searching for one or more correction rules that approximate the hidden character using the search key from the analysis target sentence information using the reference sentence storage means;
A hidden letter correction program that causes a computer to function as correction rule selection means for selecting one correction rule based on a sentence composition index from one or more of the correction rules.
前記修正ルール検索手段によって検索された1つ以上の修正ルールについて、当該修正ルール毎に修正後文字列を形態素に分割し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する修正ルール判定手段を更に有し、
前記修正ルール選択手段は、前記修正ルール判定手段によって連結すると判定された1つ以上の修正ルールの中から、前記文章構成指標に基づいて1つの修正ルールを選択するようにコンピュータを更に機能させることを特徴とする伏せ字修正プログラム。
For one or more correction rules searched by the correction rule search means, the corrected character string is divided into morphemes for each correction rule, and the character corresponding to the cover character is connected to at least one of the front and rear characters. And a correction rule determination means for determining whether or not to constitute one morpheme,
The correction rule selection means further causes the computer to select one correction rule based on the sentence composition index from one or more correction rules determined to be connected by the correction rule determination means. A program to fix up the character.
前記検索キー生成手段は、前記伏せ字を1文字の正規表現として、検索キーを生成するようにコンピュータを更に機能させることを特徴とする請求項1又は2に記載の伏せ字修正プログラム。   3. The program for correcting a hidden character according to claim 1, wherein the search key generating unit further causes the computer to generate a search key by using the hidden character as a regular expression of one character. 前記伏せ字抽出手段によって1つの前記文字列から複数の伏せ字が抽出された際に、
前記検索キー生成手段は、複数の伏せ字同士が所定文字数以下で近接している場合、1つの検索キーとして構成するようにコンピュータを更に機能させることを特徴とする請求項3に記載の伏せ字修正プログラム。
When a plurality of hidden characters are extracted from one character string by the hidden character extracting means,
4. The program for correcting a hidden character according to claim 3, wherein the search key generating unit further causes the computer to function as one search key when a plurality of the hidden characters are close to each other with a predetermined number of characters or less. .
前記解析対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であるようにコンピュータを更に機能させることを特徴とする請求項1から4のいずれか1項に記載の伏せ字修正プログラム。   The analysis target text information further causes the computer to function as text information described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via a network. The hidden letter correction program according to any one of claims 1 to 4. 前記修正ルール選択手段は、前記文章構成指標として、(1)当該修正ルールにおける出現頻度、(2)前記伏せ字と前記修正ルールに基づく修正形態素との間の編集距離、及び/又は、(3)修正前と修正後との形態素解析コスト値の差分、に基づいて1つの修正ルールを選択するようにコンピュータを更に機能させることを特徴とする請求項1から5のいずれか1項に記載の伏せ字修正プログラム。   The correction rule selection means includes (1) an appearance frequency in the correction rule, (2) an edit distance between the hidden character and a correction morpheme based on the correction rule, and / or (3) The hidden character according to any one of claims 1 to 5, wherein the computer further functions to select one correction rule based on a difference between morphological analysis cost values before and after the correction. Fix program. 前記伏せ字が修正された解析対象文章情報に対して、予め登録された違法・有害キーワードを含むか否かを判定する違法有害情報検出手段を更に有するようにコンピュータを更に機能させることを特徴とする請求項1から6のいずれか1項に記載の伏せ字修正プログラム。   The computer further functions so as to further include illegal harmful information detection means for determining whether or not to include the illegal / harmful keyword registered in advance for the analysis target sentence information in which the hidden character is corrected. The hidden character correction program according to any one of claims 1 to 6. 伏せ字を含む解析対象文章情報に対して、コンピュータを用いて伏せ字を修正する伏せ字修正方法であって、
修正基準文章情報を記憶した基準文章記憶部を有し、
予め登録された伏せ字を含む1つの文字列を抽出し、該文字列を形態素に分割する第1のステップと、
前記伏せ字と、当該伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する第2のステップと、
前記基準文章記憶部を用いて、前記解析対象文章情報の中から、前記検索キーを用いて、前記伏せ字に近似する1つ以上の修正ルールを検索する第3のステップと、
1つ以上の前記修正ルールの中から、文章構成指標に基づいて1つの修正ルールを選択する第4のステップと
を有することを特徴とする伏せ字修正方法。
A hidden character correction method that corrects a hidden character using a computer for analysis target sentence information including the hidden character,
It has a reference sentence storage unit that stores corrected reference sentence information,
A first step of extracting one character string including a pre-registered hidden character and dividing the character string into morphemes;
A second step of generating a search key comprising the hidden character and at least one of the adjacent morphemes in front of and behind the hidden character;
A third step of searching for one or more correction rules approximating the hidden character using the search key from the analysis target sentence information using the reference sentence storage unit;
And a fourth step of selecting one correction rule based on a sentence composition index from one or more of the correction rules.
第3のステップによって検索された1つ以上の修正ルールについて、当該修正ルール毎に修正後文字列を形態素に分割し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する判定ステップを更に有し、
第4のステップは、前記判定ステップによって連結すると判定された1つ以上の修正ルールの中から、前記文章構成指標に基づいて1つの修正ルールを選択する
ことを特徴とする請求項8に記載の伏せ字修正方法。
For one or more correction rules searched in the third step, the corrected character string is divided into morphemes for each correction rule, and the character corresponding to the cover character is connected to at least one of the front and rear characters. A determination step of determining whether or not to constitute one morpheme;
9. The fourth step according to claim 8, wherein one correction rule is selected based on the sentence composition index from one or more correction rules determined to be connected in the determination step. Hidden character correction method.
伏せ字を含む解析対象文章情報を他の公開サーバからネットワークを介して取得し、該伏せ字を修正する文章解析サーバであって、
修正基準文章情報を記憶した基準文章記憶手段と、
予め登録された伏せ字を含む1つの文字列を抽出し、該文を形態素に分割する伏せ字抽出手段と、
前記伏せ字と、当該伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、
前記基準文章記憶手段を用いて、前記解析対象文章情報の中から、前記検索キーを用いて、前記伏せ字に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、
1つ以上の前記修正ルールの中から、文章構成指標に基づいて1つの修正ルールを選択する修正ルール選択手段と
を有することを特徴とする文章解析サーバ。
A sentence analysis server that obtains analysis target sentence information including a hidden character from another public server via a network, and corrects the hidden character,
Reference sentence storage means for storing corrected reference sentence information;
A hidden character extracting means for extracting one character string including a previously registered hidden character and dividing the sentence into morphemes;
Search key generating means for generating a search key comprising the hidden character and at least one of the adjacent morphemes in front of and behind the hidden character;
Correction rule search means for searching for one or more correction rules that approximate the hidden character using the search key from the analysis target sentence information using the reference sentence storage means;
A sentence analysis server, comprising: a modification rule selection unit that selects one modification rule from one or more of the modification rules based on a sentence composition index.
前記修正ルール検索手段によって検索された1つ以上の修正ルールについて、当該修正ルール毎に修正後文字列を形態素に分割し、伏せ字に対応する文字が、前方及び後方の少なくとも一方の文字と連結して1形態素を構成するか否かを判定する修正ルール判定手段を更に有し、
前記修正ルール選択手段は、前記修正ルール判定手段によって連結すると判定された1つ以上の修正ルールの中から、前記文章構成指標に基づいて1つの修正ルールを選択することを特徴とする請求項10に記載の文章解析サーバ。
For one or more correction rules searched by the correction rule search means, the corrected character string is divided into morphemes for each correction rule, and the character corresponding to the cover character is connected to at least one of the front and rear characters. And a correction rule determination means for determining whether or not to constitute one morpheme,
The correction rule selection unit selects one correction rule based on the sentence composition index from one or more correction rules determined to be connected by the correction rule determination unit. The sentence analysis server described in.
JP2009265785A 2009-11-21 2009-11-21 Hidden character correction program, method, and sentence analysis server for correcting a sentence including a hidden character Expired - Fee Related JP5574526B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009265785A JP5574526B2 (en) 2009-11-21 2009-11-21 Hidden character correction program, method, and sentence analysis server for correcting a sentence including a hidden character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009265785A JP5574526B2 (en) 2009-11-21 2009-11-21 Hidden character correction program, method, and sentence analysis server for correcting a sentence including a hidden character

Publications (2)

Publication Number Publication Date
JP2011113098A true JP2011113098A (en) 2011-06-09
JP5574526B2 JP5574526B2 (en) 2014-08-20

Family

ID=44235415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009265785A Expired - Fee Related JP5574526B2 (en) 2009-11-21 2009-11-21 Hidden character correction program, method, and sentence analysis server for correcting a sentence including a hidden character

Country Status (1)

Country Link
JP (1) JP5574526B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269081A (en) * 2001-01-05 2002-09-20 Fujitsu Ltd Device and method for setting document anonymity, computer-readable recording medium with recorded anonymity setting program and the program
JP2003296354A (en) * 2002-03-29 2003-10-17 Mitsubishi Electric Corp Dictionary creation device
JP2005025642A (en) * 2003-07-04 2005-01-27 Fuji Xerox Co Ltd Message processing device and method
JP2009015866A (en) * 2008-09-22 2009-01-22 Media Magic Co Ltd Electronic bulletin board monitoring system and electronic bulletin board monitoring program
JP2009245464A (en) * 2009-07-30 2009-10-22 Fujitsu Ltd Word recognition program, word recognition method, word recognition system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269081A (en) * 2001-01-05 2002-09-20 Fujitsu Ltd Device and method for setting document anonymity, computer-readable recording medium with recorded anonymity setting program and the program
JP2003296354A (en) * 2002-03-29 2003-10-17 Mitsubishi Electric Corp Dictionary creation device
JP2005025642A (en) * 2003-07-04 2005-01-27 Fuji Xerox Co Ltd Message processing device and method
JP2009015866A (en) * 2008-09-22 2009-01-22 Media Magic Co Ltd Electronic bulletin board monitoring system and electronic bulletin board monitoring program
JP2009245464A (en) * 2009-07-30 2009-10-22 Fujitsu Ltd Word recognition program, word recognition method, word recognition system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200910054039; 池田 和史 外3名: 'ブログにおける表記の揺れを修正するためのルール自動生成システムの提案' 第71回(平成21年)全国大会講演論文集(2) 人工知能と認知科学 , 20090310, P.2-79〜2-80, 社団法人情報処理学会 *
JPN6013043178; 池田 和史 外3名: 'ブログにおける表記の揺れを修正するためのルール自動生成システムの提案' 第71回(平成21年)全国大会講演論文集(2) 人工知能と認知科学 , 20090310, P.2-79〜2-80, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5574526B2 (en) 2014-08-20

Similar Documents

Publication Publication Date Title
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
Alhumoud et al. Survey on arabic sentiment analysis in twitter
US9754076B2 (en) Identifying errors in medical data
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
US20150120788A1 (en) Classification of hashtags in micro-blogs
US20140039877A1 (en) Systems and Methods for Semantic Information Retrieval
US20150067476A1 (en) Title and body extraction from web page
Saloot et al. An architecture for Malay Tweet normalization
WO2012174637A1 (en) System and method for matching comment data to text data
JP2010181993A (en) Evaluation analysis server, method, and program for evaluating text file containing pictorial symbol
US9110852B1 (en) Methods and systems for extracting information from text
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
Frey et al. The DiDi Corpus of South Tyrolean CMC Data
Albogamy et al. POS tagging for Arabic tweets
Bhattacharjee et al. Sentiment analysis using cosine similarity measure
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
JP5339628B2 (en) Sentence classification program, method, and sentence analysis server for classifying sentences containing unknown words
Ogrodniczuk et al. Lexical correction of polish twitter political data
JP5448744B2 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
US20180293508A1 (en) Training question dataset generation from query data
JP5495425B2 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
JP5574526B2 (en) Hidden character correction program, method, and sentence analysis server for correcting a sentence including a hidden character
Roy et al. A lexicon based algorithm for noisy text normalization as pre processing for sentiment analysis
Tamboli et al. Author identification with feature transformation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140630

R150 Certificate of patent or registration of utility model

Ref document number: 5574526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees