JP5906869B2 - Accent imparting apparatus, accent imparting method, and program - Google Patents

Accent imparting apparatus, accent imparting method, and program Download PDF

Info

Publication number
JP5906869B2
JP5906869B2 JP2012067213A JP2012067213A JP5906869B2 JP 5906869 B2 JP5906869 B2 JP 5906869B2 JP 2012067213 A JP2012067213 A JP 2012067213A JP 2012067213 A JP2012067213 A JP 2012067213A JP 5906869 B2 JP5906869 B2 JP 5906869B2
Authority
JP
Japan
Prior art keywords
morpheme
accent
verification
appearances
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012067213A
Other languages
Japanese (ja)
Other versions
JP2013200605A (en
Inventor
村瀬 健太郎
健太郎 村瀬
英樹 小島
英樹 小島
片江 伸之
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012067213A priority Critical patent/JP5906869B2/en
Publication of JP2013200605A publication Critical patent/JP2013200605A/en
Application granted granted Critical
Publication of JP5906869B2 publication Critical patent/JP5906869B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本明細書で議論される実施態様は、テキストを音声に変換する音声合成の技術に関するものである。   The embodiments discussed herein relate to speech synthesis techniques that convert text to speech.

テキストを音声に変換する音声合成において、正しいアクセントを付与して読み上げを行うようにすることは、読み上げ音声を聞くユーザの理解度に大きく影響する。
複数の単語がまとまって1つの語を形成するいわゆる複合語においては、個々の単語のアクセントが変化して、元の単語の各々のアクセントとは異なるアクセントになるアクセント結合現象が生じる場合がある。このアクセント結合現象にはアクセントの変化パターンが複数あり、画一的な規則が全ての場合に当てはまるものではない。
In speech synthesis in which text is converted into speech, giving a correct accent to read out greatly affects the level of understanding of the user who hears the speech.
In a so-called compound word in which a plurality of words are combined to form a single word, there is a case where an accent coupling phenomenon occurs in which accents of individual words change and accents different from the accents of the original words. There are a plurality of accent change patterns in this accent coupling phenomenon, and a uniform rule does not apply to all cases.

このようなアクセント結合現象を正しく解析するために、単語の属性と、その属性毎に設定されたアクセント結合規則とを利用した解析の技術が幾つか知られている。具体的には、数詞及び助数詞に関する規則、属語に関する規則、品詞毎の規則、孤立単語に関する規則、連体詞とカタカナ又は漢字の名詞に関する規則、並びに形態素が接続する接続先の語の品詞毎の規則などを利用するという技術が知られている。また、この他にも、自立語に付属語が結合する際の規則や、隣接する単語の意味情報及び品詞情報に基づく規則などを利用するという技術も知られている。   In order to correctly analyze such an accent coupling phenomenon, several techniques for analysis using word attributes and accent coupling rules set for each attribute are known. Specifically, rules for numbers and classifiers, rules for genus, rules for each part of speech, rules for isolated words, rules for conjunctions and katakana or kanji nouns, and rules for each part of speech of the word to which the morpheme connects The technique of using such as is known. In addition to this, there is also known a technique of using rules when adjunct words are combined with independent words, rules based on semantic information and part-of-speech information of adjacent words, and the like.

また、この他の複合語のアクセントを獲得する技術として、複合語そのものを辞書に登録しておくという技術や、辞書に未登録の単語について類似する複合単語を検索し、その類似単語のアクセント結合規則を利用するという技術が知られている。   In addition, as a technique for acquiring the accent of other compound words, a technique of registering the compound word itself in the dictionary, or searching for a compound word similar to a word not registered in the dictionary, and combining the accents of the similar words A technique of using rules is known.

なお、この他の背景技術として、出力音のアクセント生成時に統合的な規則で処理できない例外事例に対して適切な位置にアクセントを付与できるようにするという技術が知られている。   As another background art, a technique is known in which an accent can be given to an appropriate position for an exceptional case that cannot be processed by an integrated rule when generating an output sound accent.

また、予め用意されたテキストコーパス中のテキストに含まれる形態素列の複合語の頻度情報に基づいて作成された学習データに基づいて合成対象テキストからの複合語に対するアクセント情報を決定するという技術が知られている。   In addition, a technique is known in which accent information for a compound word from a synthesis target text is determined based on learning data created based on frequency information of a compound word of a morpheme sequence included in a text in a text corpus prepared in advance. It has been.

更に、アクセント句の分割・結合時に、その句のアクセント結合規則に基づき、形態素からなる複数のアクセント句の組み合わせに対応付けられたアクセント句情報を生成しておき、その情報から任意の文字列の選択すべき情報を検索するという技術が知られている。   Furthermore, at the time of dividing / combining accent phrases, accent phrase information associated with a combination of a plurality of accent phrases composed of morphemes is generated based on the accent combining rules of the phrases, and an arbitrary character string is generated from the information. A technique for searching for information to be selected is known.

特開平11−231898号公報Japanese Patent Laid-Open No. 11-231898 特開平08−185195号公報Japanese Patent Application Laid-Open No. 08-185195 特開平02−186397号公報Japanese Patent Laid-Open No. 02-186397 特開平02−005097号公報Japanese Patent Laid-Open No. 02-005097 特開昭63−094298号公報JP 63-094298 A 特開昭61−006693号公報JP-A 61-006693 特開昭58−181098号公報JP 58-181098 A 特開平04−036799号公報Japanese Patent Laid-Open No. 04-036799 特開2008−164785号公報JP 2008-164785 A 特開2008−116650号公報JP 2008-116650 A 特開平08−190397号公報Japanese Patent Laid-Open No. 08-190397 特開2002−258884号公報JP 2002-258484 A 特開2005−242029号公報JP 2005-242029 A

複合語のアクセントを獲得する前述した各種の技術は、2つの単語からなる複合語に対しては有効性が高いが、3単語以上からなる複合語には十分には対応できないという問題がある。3単語以上の複合語は意味的なつながりが重要であり、各単語間の意味関係を考慮しなければならず、従って、単純な品詞や属性だけでは3単語以上からなる複合語のアクセント結合を正しく判断することが困難であるためである。また、このような意味関係は背景知識がないと解析できないことも多い。更に、3単語以上からなる複合語は膨大な数の組合せがあるため、複合語辞書を予め用意しておくのも困難である。   The various techniques described above for obtaining the accent of a compound word are highly effective for compound words composed of two words, but have a problem that they cannot sufficiently cope with compound words composed of three or more words. Semantic connections are important for compound words of three or more words, and the semantic relationship between each word must be taken into account. Therefore, simple word parts and attributes can be used to combine accents of three or more words. This is because it is difficult to judge correctly. In addition, such semantic relationships often cannot be analyzed without background knowledge. Furthermore, since there are an enormous number of combinations of three or more compound words, it is difficult to prepare a compound word dictionary in advance.

上述した問題に鑑み、本明細書で後述するアクセント付与装置は、3単語以上からなる日本語テキストでもアクセント結合現象を適切に解析できるようにする。   In view of the above-described problems, the accent applying apparatus described later in this specification enables an accent combining phenomenon to be appropriately analyzed even with Japanese text consisting of three or more words.

本明細書で後述するアクセント付与装置のひとつに、テキスト入力部と、形態素解析部と、検証フレーズ生成部と、用例検索部と、アクセント結合判定部と、結果出力部とを備えるというものがある。ここで、テキスト入力部は、日本語テキストの入力を受け付ける。形態素解析部は、受け付けられた日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を出力する。検証フレーズ生成部は、この形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、当該形態素列について複数種類の検証フレーズを生成する。用例検索部は、生成された検証フレーズが、文章コーパス中に現れる出現回数を計数する。アクセント結合判定部は、この形態素列における検証フレーズ生成部による文字「の」の挿入位置に隣接している2つの形態素を結合させて得られる合成語にアクセント結合現象が生じるか否かを、複数種類の検証フレーズ毎の前述の出現回数に基づいて判定する。なお、アクセント結合現象とは、当該合成語のアクセントが当該2つの形態素の各々についてのものから変化する現象のことである。結果出力部は、形態素列を構成している複数の形態素の各々についてのアクセント情報を、アクセント結合判定部での判定結果に基づいて変更して、受け付けられた日本語テキストについてのアクセントを作成して出力する。   One of the accent assignment devices described later in this specification includes a text input unit, a morpheme analysis unit, a verification phrase generation unit, an example search unit, an accent combination determination unit, and a result output unit. . Here, the text input unit accepts input of Japanese text. The morpheme analysis unit performs morpheme analysis on the accepted Japanese text and outputs a morpheme string divided into a plurality of morphemes. The verification phrase generation unit generates a plurality of types of verification phrases for the morpheme string by inserting the character “NO” into any one of the adjacent morpheme boundaries in the morpheme string. The example search unit counts the number of times the generated verification phrase appears in the sentence corpus. The accent combination determination unit determines whether or not an accent combination phenomenon occurs in a composite word obtained by combining two morphemes adjacent to the insertion position of the character “NO” by the verification phrase generation unit in the morpheme string. The determination is made based on the number of appearances described above for each type of verification phrase. Note that the accent combining phenomenon is a phenomenon in which the accent of the composite word changes from that for each of the two morphemes. The result output unit changes the accent information for each of the plurality of morphemes constituting the morpheme string based on the determination result in the accent combination determination unit, and creates an accent for the accepted Japanese text. Output.

また、本明細書で後述するアクセント付与方法のひとつは、まず、入力された日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を生成する。次に、生成された形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、当該生成された形態素列について複数種類の検証フレーズを生成する。次に、生成された複数種類の検証フレーズが、文章コーパス中に現れる出現回数を計数する。次に、複数種類の検証フレーズを生成したときに挿入した文字「の」についての生成された形態素列における挿入位置に隣接している2つの形態素を結合させて得られる合成語にアクセント結合現象が生じるか否かを判定する。なお、アクセント結合現象とは、当該合成語のアクセントが当該2つの形態素の各々についてのものから変化する現象のことであり、この判定は、複数種類の検証フレーズ毎の前述の出現回数に基づいて行われる。そして、生成された形態素列を構成している複数の形態素の各々についてのアクセント情報を、アクセント結合現象が生じるか否かの判定結果に基づいて変更して、入力された日本語テキストについてのアクセントを作成して出力する。   In addition, one of the accenting methods described later in this specification first generates a morpheme string divided into a plurality of morphemes by performing morphological analysis on the input Japanese text. Next, a plurality of types of verification phrases are generated for the generated morpheme sequence by inserting the character “NO” into any one of the adjacent morpheme boundaries in the generated morpheme sequence. Next, the number of appearances of the generated plural kinds of verification phrases in the sentence corpus is counted. Next, there is an accent combining phenomenon in the composite word obtained by combining two morphemes adjacent to the insertion position in the generated morpheme string for the character “no” inserted when generating multiple types of verification phrases. Determine if it occurs. The accent combining phenomenon is a phenomenon in which the accent of the composite word changes from that of each of the two morphemes, and this determination is based on the number of appearances described above for each of a plurality of types of verification phrases. Done. Then, the accent information for each of the plurality of morphemes constituting the generated morpheme sequence is changed based on the determination result of whether or not the accent coupling phenomenon occurs, and the accent for the input Japanese text is changed. Create and output.

また、本明細書で後述するプログラムのひとつは、以下の処理をコンピュータに行わせる。この処理は、まず、入力された日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を生成する。次に、生成された形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、当該生成された形態素列について複数種類の検証フレーズを生成する。次に、生成された複数種類の検証フレーズが、文章コーパス中に現れる出現回数を計数する。次に、複数種類の検証フレーズを生成したときに挿入した文字「の」についての生成された形態素列における挿入位置に隣接している2つの形態素を結合させて得られる合成語にアクセント結合現象が生じるか否かを判定する。なお、アクセント結合現象とは、当該合成語のアクセントが当該2つの形態素の各々についてのものから変化する現象のことであり、この判定は、複数種類の検証フレーズ毎の前述の出現回数に基づいて行われる。そして、生成された形態素列を構成している複数の形態素の各々についてのアクセント情報を、アクセント結合現象が生じるか否かの判定結果に基づいて変更して、入力された日本語テキストについてのアクセントを作成して出力する。   One of the programs described later in this specification causes a computer to perform the following processing. In this process, first, morpheme analysis is performed on the input Japanese text to generate a morpheme string divided into a plurality of morphemes. Next, a plurality of types of verification phrases are generated for the generated morpheme sequence by inserting the character “NO” into any one of the adjacent morpheme boundaries in the generated morpheme sequence. Next, the number of appearances of the generated plural kinds of verification phrases in the sentence corpus is counted. Next, there is an accent combining phenomenon in the composite word obtained by combining two morphemes adjacent to the insertion position in the generated morpheme string for the character “no” inserted when generating multiple types of verification phrases. Determine if it occurs. The accent combining phenomenon is a phenomenon in which the accent of the composite word changes from that of each of the two morphemes, and this determination is based on the number of appearances described above for each of a plurality of types of verification phrases. Done. Then, the accent information for each of the plurality of morphemes constituting the generated morpheme sequence is changed based on the determination result of whether or not the accent coupling phenomenon occurs, and the accent for the input Japanese text is changed. Create and output.

本明細書で後述するアクセント付与装置は、3単語以上からなる日本語テキストでもアクセント結合現象を適切に解析できるという効果を奏する。   The accent assignment device described later in this specification has an effect that an accent combining phenomenon can be appropriately analyzed even in Japanese text composed of three or more words.

アクセント付与装置の一実施例の機能構成図である。It is a functional block diagram of one Example of an accent provision apparatus. 形態素テーブルの例を表した図である。It is a figure showing the example of the morpheme table. 形態素解析の手法の一例の説明図である。It is explanatory drawing of an example of the method of a morphological analysis. アクセント結合規則の例を表した図である。It is a figure showing the example of the accent joint rule. アクセント付与装置の一実施例のハードウェア構成例を表した図である。It is a figure showing the hardware structural example of one Example of the accent provision apparatus. アクセント付与処理の処理内容を図解したフローチャートである。It is the flowchart which illustrated the processing content of the accent provision process.

まず図1について説明する。図1は、アクセント付与装置の一実施例の機能構成図である。
図1のアクセント付与装置10は、テキスト入力部11、形態素解析部12、形態素修正部13、検証フレーズ生成部14、用例検索部15、アクセント結合判定部16、及び結果出力部17を備えている。
First, FIG. 1 will be described. FIG. 1 is a functional configuration diagram of an embodiment of an accent applying apparatus.
1 includes a text input unit 11, a morpheme analysis unit 12, a morpheme modification unit 13, a verification phrase generation unit 14, an example search unit 15, an accent combination determination unit 16, and a result output unit 17. .

テキスト入力部11は、日本語テキスト(ひらがな・カタカナ・漢字等のテキスト)の入力を受け付けて形態素解析部12へ出力する。
形態素解析部12は、テキスト入力部11により受け付けられた日本語テキストに対して形態素解析を行って、複数の形態素に分割した形態素列を出力する。
The text input unit 11 receives input of Japanese text (text of hiragana, katakana, kanji, etc.) and outputs it to the morpheme analysis unit 12.
The morpheme analysis unit 12 performs morpheme analysis on the Japanese text received by the text input unit 11 and outputs a morpheme string divided into a plurality of morphemes.

この日本語テキストの形態素解析の手法としては、どのような手法を用いてもよい。図1の形態素解析部12において用いることのできる形態素解析の手法の一例について簡単に説明しておく。   Any method may be used as a method for morphological analysis of the Japanese text. An example of a morphological analysis technique that can be used in the morphological analysis unit 12 of FIG. 1 will be briefly described.

この形態素解析の手法では、アクセント付与装置10に予め用意されている単語辞書21が用いられる。図2は、単語辞書21が有している形態素テーブルの例を表している。   In this morphological analysis method, a word dictionary 21 prepared in advance in the accent assignment device 10 is used. FIG. 2 shows an example of a morpheme table that the word dictionary 21 has.

図2の形態素テーブルでは、形態素である文字列の「表記」に、当該形態素の「読み」と、当該形態素を単独で発音するときの「アクセント」と、当該文字列で表されている形態素の「品詞」とが対応付けられて登録されている。また、形態素テーブルに登録されている形態素には、名詞だけではなく、動詞の語幹や、活用語尾、助詞や助動詞なども登録されている。   In the morpheme table of FIG. 2, the “notation” of a character string that is a morpheme includes “reading” of the morpheme, “accent” when the morpheme is pronounced alone, and the morpheme represented by the character string. “Part of speech” is associated and registered. In addition, in the morphemes registered in the morpheme table, not only nouns but also verb stems, inflection endings, particles and auxiliary verbs are registered.

なお、以降の説明では、ある文字列についてのアクセント核の位置を、カタカナで表記した当該文字列の読みにアポストロフィ『’』を付して表記することによって、この文字列についてのアクセントの情報を表現するようにする。図2の形態素テーブルにおいても、「アクセント」のデータは、この表現手法を用いている。   In the following description, the position of the accent nucleus for a certain character string is indicated by adding the apostrophe “'” to the reading of the character string written in katakana, thereby obtaining the accent information for this character string. Try to express. Also in the morpheme table of FIG. 2, the “accent” data uses this expression method.

例えば『今日は晴れ』という日本語テキストが形態素解析部12に入力されたものとする。形態素解析部12は、単語辞書21を参照し、この日本語テキストを、考えられ得る形態素の組合せに展開する。図3は、形態素解析部12が単語辞書21を用いて『今日は晴れ』を様々な形態素の組合せに展開した状態を表している。次に、形態素解析部12は、列挙された形態素の組合せの各組に対し、形態素間の接続の規則(例えば、動詞の活用語尾は、動詞の語幹の後には接続し易く、名詞の後には接続し難い)や、文字数が多い形態素を優先する規則などといった各種の規則を適用する。そして、これらの規則への適合性を数値化することによって、最適と思われる形態素の組合せを選択し、選択された形態素の組合せを、形態素解析の結果とする。図3では、このようにして選択された形態素の組合せ『今日』、『は』、『晴れ』を、『今日は晴れ』の形態素解析の結果として、太線矢印により表現している。   For example, it is assumed that a Japanese text “Today is fine” is input to the morphological analysis unit 12. The morpheme analyzer 12 refers to the word dictionary 21 and expands this Japanese text into possible morpheme combinations. FIG. 3 shows a state where the morpheme analysis unit 12 develops “Today is fine” into various morpheme combinations using the word dictionary 21. Next, the morpheme analysis unit 12 makes a rule for connection between morphemes for each set of combinations of the listed morphemes (for example, a verb inflection ending is easy to connect after the verb stem, and after the noun. Various rules are applied, such as rules that are difficult to connect) and rules that prioritize morphemes with a large number of characters. Then, by quantifying the conformity to these rules, a combination of morphemes that seems to be optimal is selected, and the selected combination of morphemes is set as a result of morpheme analysis. In FIG. 3, the morpheme combinations “Today”, “Ha”, and “Sunny” selected in this way are represented by bold arrows as a result of the morphological analysis of “Today is sunny”.

形態素修正部13は、形態素解析部12が出力した形態素列を構成している複数の形態素のうちに、単体では語彙的な意味をなしておらず、他の形態素と共に用いられるものが含まれていた場合に機能する。形態素修正部13は、この場合に、そのような形態素と当該他の形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、当該形態素列の修正を行う。例えば、形態素列を構成している複数の形態素に接辞が含まれていた場合には、形態素修正部13は、この接辞である形態素と当該複数の形態素のうちの当該接辞についての語幹である形態素とを結合させて得られる合成語を1つの形態素として扱うようにする。なお、接辞とは、例えば接頭辞や接尾辞であり、元の語(語幹)である形態素に結合することによって、当該元の語の意味を補足若しくは変更し、あるいは品詞を当該元の語から変更する形態素である。例えば、助数詞は、数を表す語の後に結合して数詞を作る接尾辞であり、接辞の一例である。なお、本実施例では、形態素が接辞であるか否かを表している情報についても、単語辞書21の形態素テーブルに登録されており、形態素修正部13は、この情報を用いて形態素列の修正を行うものとする。   The morpheme modification unit 13 includes a plurality of morphemes constituting the morpheme sequence output by the morpheme analysis unit 12 and does not have a lexical meaning by itself and is used with other morphemes. It works when In this case, the morpheme correcting unit 13 corrects the morpheme sequence by treating a composite word obtained by combining such a morpheme and the other morpheme as one morpheme. For example, when affixes are included in a plurality of morphemes constituting a morpheme string, the morpheme modification unit 13 uses the morpheme that is the affix and the morpheme that is the stem of the affix among the plurality of morphemes. A combined word obtained by combining and is treated as one morpheme. The affix is a prefix or suffix, for example, and is combined with the morpheme that is the original word (stem) to supplement or change the meaning of the original word, or the part of speech from the original word. The morpheme to change. For example, a classifier is a suffix that is combined with a word representing a number to form a numeral, and is an example of a suffix. In this embodiment, information indicating whether or not a morpheme is an affix is also registered in the morpheme table of the word dictionary 21, and the morpheme correction unit 13 uses this information to correct the morpheme string. Shall be performed.

検証フレーズ生成部14には、形態素解析部12から出力された形態素列が入力される。但し、形態素解析部12から出力された形態素列を形態素修正部13が修正した場合には、形態素修正部13による修正後の形態素列が検証フレーズ生成部14に入力される。検証フレーズ生成部14は、入力された形態素列において隣接している形態素の境界のいずれか1つに、助詞である文字『の』を挿入することによって、当該形態素列について複数種類の検証フレーズを生成する。   The verification phrase generator 14 receives the morpheme string output from the morpheme analyzer 12. However, when the morpheme correction unit 13 corrects the morpheme sequence output from the morpheme analysis unit 12, the morpheme sequence corrected by the morpheme correction unit 13 is input to the verification phrase generation unit 14. The verification phrase generation unit 14 inserts the character “NO” as a particle into any one of the adjacent morpheme boundaries in the input morpheme sequence, thereby generating a plurality of types of verification phrases for the morpheme sequence. Generate.

用例検索部15は、検証フレーズ生成部14により生成された複数種類の検証フレーズの各々について、アクセント付与装置10に予め用意されている文章コーパス22に現れる出現回数を計数する。本実施例では、文章コーパス22として、一般的な日本語の文を数十万乃至数十億程度有している大規模なものを使用する。なお、文章コーパス22は必ずしも予め用意しておいてアクセント付与装置10の内部に保持しておく必要はなく、例えばネットワーク越しに外部に存在する文章コーパスを参照する形態としてもよい。   The example search unit 15 counts the number of appearances that appear in the sentence corpus 22 prepared in advance in the accent assignment device 10 for each of a plurality of types of verification phrases generated by the verification phrase generation unit 14. In this embodiment, a large-scale sentence corpus 22 having several hundred to several billion general Japanese sentences is used. Note that the sentence corpus 22 is not necessarily prepared in advance and is not necessarily held in the accent assigning apparatus 10, but may be configured to refer to a sentence corpus existing outside via a network, for example.

アクセント結合判定部16は、検証フレーズ生成部14に入力された形態素列における文字『の』の挿入位置に隣接している2つの形態素を結合させると、アクセント結合現象が生じるか否かを判定する。アクセント結合現象とは、この2つの形態素を結合させた合成語のアクセントがその2つの形態素の各々についてのものから変化する現象である。アクセント結合判定部16は、この判定を、この2つの形態素に各々対応付けられている2つの形態素間のアクセント結合規則23に基づくことに加えて、更に、用例検索部15による、複数種類の検証フレーズ毎の前記出現回数の計数結果にも基づいて行う。   The accent combination determination unit 16 determines whether or not an accent combination phenomenon occurs when two morphemes adjacent to the insertion position of the character “NO” in the morpheme string input to the verification phrase generation unit 14 are combined. . The accent combining phenomenon is a phenomenon in which the accent of a composite word obtained by combining these two morphemes changes from that for each of the two morphemes. In addition to the determination based on the accent combination rule 23 between the two morphemes respectively associated with the two morphemes, the accent combination determination unit 16 further performs a plurality of types of verification by the example search unit 15. This is also based on the result of counting the number of appearances for each phrase.

アクセント結合規則23はアクセント付与装置10に予め用意されている。図4は、アクセント結合規則23の例を表している。
図に例示したアクセント結合規則23のテーブルには、「見出し語」、「位置」、「影響」、「結合先品詞」、「結合有無」、「変形型」、及びの「例外」の各フィールドが設けられている。
The accent combining rule 23 is prepared in advance in the accent assigning device 10. FIG. 4 shows an example of the accent combination rule 23.
The table of the accent combination rule 23 illustrated in the figure includes fields of “entry word”, “position”, “influence”, “part of speech to be combined”, “combination presence / absence”, “deformation type”, and “exception”. Is provided.

「見出し語」には、アクセント結合現象の発生有無の判定対象である合成語を構成している形態素が格納される。
「位置」には、「見出し語」である形態素についての、判定対象である合成語中における位置がその『前方』であるか『後方』であるかを表すデータが格納される。
“Headword” stores a morpheme that constitutes a composite word that is a target for determining whether or not an accent coupling phenomenon has occurred.
“Position” stores data indicating whether the position of the morpheme that is the “entry word” is “front” or “rear” in the composite word that is the determination target.

「影響」には、「見出し語」である形態素と、当該形態素と結合して合成語を構成している相手方の形態素との間で、後述する「結合有無」の情報が相反した場合に、どちらの「結合有無」の情報を採用するかを決定する情報が格納される。より具体的には、この「影響」には『大』若しくは『小』を表すデータが格納される。ここで、合成語を構成している2つの形態素の間で「結合有無」の情報が相反した場合には、「影響」データが『大』である方の形態素の「結合有無」の情報が、当該合成語においてアクセント結合現象が生じるか否かの判定結果とされる。なお、2つの形態素の間で「影響」データが同一である場合には、当該2つの形態素で構成されている合成語においての位置が後方である方の形態素の「結合有無」の情報が、当該合成語においてアクセント結合現象が生じるか否かの判定結果とされる。   In the “influence”, when the morpheme that is the “entry word” and the other morpheme that is combined with the morpheme and constitutes a composite word conflict with each other in the “combination presence / absence” information described below, Information for determining which “combination presence / absence” information is to be used is stored. More specifically, data representing “large” or “small” is stored in this “influence”. Here, when the information on “combination presence / absence” conflicts between the two morphemes that compose the compound word, the information on “combination presence / absence” of the morpheme whose “influence” data is “large” The determination result is whether or not an accent coupling phenomenon occurs in the synthesized word. In addition, when the “influence” data is the same between two morphemes, the “combined presence / absence” information of the morpheme whose position in the compound word composed of the two morphemes is backward is: It is determined whether or not an accent coupling phenomenon occurs in the synthesized word.

「結合先品詞」には、「見出し語」である形態素と結合して合成語を構成している相手方の形態素の品詞の情報が格納される。
「結合有無」には、「見出し語」である形態素を使用して合成語を構成した場合にアクセント結合現象が生じるか否かを表すデータとして、『有』若しくは『無』を表すデータが格納される。
“Combined part-of-speech” stores information on the part-of-speech of the other party's morpheme that is combined with the morpheme that is the “entry word” to form a composite word.
In “Combination presence / absence”, data indicating “Yes” or “No” is stored as data indicating whether or not an accent combining phenomenon occurs when a composite word is configured using a morpheme that is “headword”. Is done.

「変形型」には、アクセント結合現象が生じた場合においての、「見出し語」である形態素のアクセントの変化の態様を表す情報が格納される。例えば、「変形型」が『1型化』である形態素は、当該形態素のモーラ(mora:日本語における拍)における1番目(すなわち先頭)にアクセントが与えられることを表している。また、「変形型」が『N型化』である形態素は、N個のモーラを有している当該形態素におけるN番目(すなわち末尾)のモーラにアクセントが与えられることを表している。更に、「変形型」が『N−1型化』である形態素は、N個のモーラを有している当該形態素におけるN−1番目(すなわち末尾もモーラから1モーラ戻った位置)のモーラにアクセントが与えられることを表している。一方、「変形型」が『平板化(0型化)』である形態素は、当該形態素単独の場合には付されていたアクセントを消失させる(平板化する)ことを表している。なお、「変形型」が『無変形』である形態素は、当該形態素を用いて構成された合成語にアクセント結合現象が生じても、当該形態素自身にはアクセントの変化が生じないことを表している。   The “deformation type” stores information indicating the change in the accent of the morpheme that is the “entry word” when the accent coupling phenomenon occurs. For example, a morpheme whose “deformation type” is “1 type” indicates that an accent is given to the first (that is, the top) in the mora (mora: beat in Japanese) of the morpheme. In addition, a morpheme whose “deformation type” is “N-type” represents that an accent is given to the Nth (ie, the end) mora in the morpheme having N mora. Furthermore, a morpheme whose “deformation type” is “N-1 type” is the N-1th mora in the morpheme having N mora (that is, the end is also a position returned from the mora by 1 mora). Indicates that an accent is given. On the other hand, a morpheme whose “deformation type” is “flattened (zero-type)” represents that the accent attached to the morpheme alone is eliminated (flattened). Note that a morpheme whose “deformation type” is “non-deformation” indicates that even if an accent combining phenomenon occurs in a compound word composed using the morpheme, the morpheme itself does not change the accent. Yes.

「例外」には、「見出し語」である形態素と結合して合成語を構成する相手方の形態素のリストであって、当該合成語についてのアクセント結合現象の発生有無の判定が以上までの規則から外れるもののリストである。これらのリストされている形態素と「見出し語」の形態素とからなる合成語についてのアクセント結合現象の発生有無の判定は、当該「見出し語」の形態素においての「結合先品詞」が『例外』とされているレコードにおける「結合有無」の情報に基づいて行われる。   An “exception” is a list of counterpart morphemes that are combined with a morpheme that is a “headword” to form a compound word, and from the above rules for determining whether or not an accent combining phenomenon occurs for the compound word This is a list of things that come off. The determination of the presence or absence of an accent combining phenomenon for a compound word composed of these listed morphemes and the morpheme of “headword” is “exception” when the “participant part of speech” in the morpheme of the “headword” is “exception”. This is performed based on the information of “combination presence / absence” in the recorded record.

アクセント結合判定部16による、アクセント結合規則23と検証フレーズ毎の文章コーパス22中の出現回数とに基づいた、アクセント結合現象の発生有無の判定手法の詳細については後述する。   Details of a method for determining whether or not an accent coupling phenomenon has occurred based on the accent coupling rule 23 and the number of appearances in the sentence corpus 22 for each verification phrase by the accent coupling determination unit 16 will be described later.

結果出力部17は、テキスト入力部11により受け付けられた日本語テキストについてのアクセント情報を作成して出力する。このアクセント情報の作成は、検証フレーズ生成部14に入力された形態素列を構成している複数の形態素の各々についてのアクセント情報を、アクセント結合判定部16での判定結果に基づいて変更することによって行われる。   The result output unit 17 creates and outputs accent information about the Japanese text received by the text input unit 11. The creation of the accent information is performed by changing the accent information for each of the plurality of morphemes constituting the morpheme string input to the verification phrase generation unit 14 based on the determination result in the accent combination determination unit 16. Done.

以上のように構成されているアクセント付与装置10は、日本語テキストを構成する各形態素間の意味の切れ目を、文章コーパス22の用例を用いて推定することによって、複数の形態素からなる日本語テキストを2つの形態素からなる合成語にまで落とし込む。アクセント付与装置10は、このようにすることで、3単語以上からなる日本語テキストでもアクセント結合現象を適切に解析することができる。   The accent assigning apparatus 10 configured as described above estimates Japanese language text composed of a plurality of morphemes by estimating the meaning breaks between the morphemes constituting the Japanese text using the example of the sentence corpus 22. Into a compound word consisting of two morphemes. By doing in this way, the accent imparting apparatus 10 can appropriately analyze the accent coupling phenomenon even in Japanese text composed of three or more words.

また、このアクセント付与装置10は、形態素修正部13を備えたことで、単体では語彙的な意味をなさない形態素を単体で扱うことによって生じ得る、意味の切れ目の誤りに基づいた用例の検索が防止されるので、アクセント結合現象の解析精度が向上する。   In addition, since the accent assigning device 10 includes the morpheme correction unit 13, it is possible to search for an example based on an error in a meaning break that may occur by handling a morpheme that does not have a lexical meaning by itself. As a result, the accuracy of analysis of the accent coupling phenomenon is improved.

また、アクセント付与装置10におけるアクセント結合判定部16は、検証フレーズ生成部14に入力された形態素列における文字『の』の挿入位置に隣接している2つの形態素を結合させると、アクセント結合現象が生じるか否かの判定を、以下のようにして行う。   Further, when the accent combination determination unit 16 in the accent assigning apparatus 10 combines two morphemes adjacent to the insertion position of the character “NO” in the morpheme string input to the verification phrase generation unit 14, the accent combination phenomenon occurs. The determination of whether or not it occurs is performed as follows.

アクセント結合判定部16は、まず、検証フレーズ生成部14により生成された複数種類の検証フレーズのうちで、用例検索部15により計数された前述の出現回数が最大である検証フレーズに注目する。このときに注目された検証フレーズを、「判定対象検証フレーズ」と称することとする。アクセント結合判定部16は、次に、この判定対象検証フレーズについての、検証フレーズ生成部14により生成された複数種類の検証フレーズのうちの当該判定対象検証フレーズ以外の検証フレーズに対する前述の出現回数の比が、当該判定対象検証フレーズ以外の検証フレーズのいずれにおいても所定の判定閾値よりも大きいか否かを判定する。なお、この判定において、当該判定対象検証フレーズ以外の検証フレーズについての出現回数がゼロである場合には、判定対象検証フレーズについての、当該判定対象検証フレーズ以外の検証フレーズに対する前述の出現回数の比は所定の判定閾値よりも大きいとの判定を下すものとする。   First, the accent combination determination unit 16 pays attention to the verification phrase having the maximum number of appearances counted by the example search unit 15 among the plurality of types of verification phrases generated by the verification phrase generation unit 14. The verification phrase attracting attention at this time is referred to as a “determination target verification phrase”. Next, the accent combination determination unit 16 determines the number of appearances for the verification phrase other than the determination target verification phrase among the plurality of types of verification phrases generated by the verification phrase generation unit 14 for the determination target verification phrase. It is determined whether or not the ratio is larger than a predetermined determination threshold in any verification phrase other than the determination target verification phrase. In this determination, when the number of appearances for a verification phrase other than the determination target verification phrase is zero, the ratio of the number of appearances described above with respect to the verification phrase other than the determination target verification phrase for the determination target verification phrase. Assume that it is determined that is greater than a predetermined determination threshold.

アクセント結合判定部16は、上述の比が、当該判定対象検証フレーズ以外の検証フレーズのいずれにおいても所定の判定閾値よりも大きいとの判定を下した場合には、次に、判定対象検証フレーズにおいて検証フレーズ生成部14が挿入した文字『の』の挿入位置に注目する。アクセント結合判定部16は、ここで、この判定対象検証フレーズにおける文字『の』の挿入位置が、検証フレーズ生成部14に入力された形態素列において隣接している形態素の境界のうち最も後ろの境界であるか否かを判定する。なお、以下の説明では、この最も後ろの境界を、「最後尾の境界」と称することとする。   If the accent combination determination unit 16 determines that the above-described ratio is larger than the predetermined determination threshold in any of the verification phrases other than the determination target verification phrase, Note the insertion position of the character “NO” inserted by the verification phrase generator 14. Here, the accent combination determination unit 16 determines that the insertion position of the character “NO” in the determination target verification phrase is the rearmost boundary among the adjacent morpheme boundaries in the morpheme string input to the verification phrase generation unit 14. It is determined whether or not. In the following description, this rearmost boundary is referred to as “the last boundary”.

アクセント結合判定部16は、ここで、文字『の』の挿入位置が最後尾の境界でない場合には、この挿入位置においてはアクセント結合現象が生じないとの判定を下す。一方、アクセント結合判定部16は、ここで、文字『の』の挿入位置が最後尾の境界である場合には、この最後尾の境界においてアクセント結合現象が生じるか否かを、最後尾の境界に隣接している2つの形態素についてのアクセント結合規則23に従って判定する。   Here, if the insertion position of the character “NO” is not the last boundary, the accent connection determination unit 16 determines that the accent connection phenomenon does not occur at this insertion position. On the other hand, if the insertion position of the character “NO” is the last boundary, the accent combination determination unit 16 determines whether or not the accent combination phenomenon occurs at the last boundary. Is determined according to the accent combining rule 23 for two morphemes adjacent to.

ところで、アクセント結合判定部16は、前述の比が、当該判定対象検証フレーズ以外の検証フレーズのいずれかにおいて所定の判定閾値よりも小さいとの判定を下した場合にも、最後尾の境界においてアクセント結合現象が生じるか否かを、上述の場合と同様に判定する。すなわち、アクセント結合判定部16は、この場合においても、最後尾の境界においてアクセント結合現象が生じるか否かを、その最後尾の境界に隣接している2つの形態素についてのアクセント結合規則23に従って判定する。   By the way, even when the accent combination determination unit 16 determines that the above-described ratio is smaller than the predetermined determination threshold in any of the verification phrases other than the determination target verification phrase, Whether or not the coupling phenomenon occurs is determined in the same manner as described above. That is, even in this case, the accent joint determination unit 16 determines whether or not an accent joint phenomenon occurs at the tail boundary according to the accent joint rule 23 for two morphemes adjacent to the tail boundary. To do.

なお、検証フレーズ生成部14により生成された複数種類の検証フレーズの各々について用例検索部15により計数された前述の出現回数が全てゼロである場合もあり得る。この場合には、アクセント結合判定部16は、検証フレーズ生成部14に入力された形態素列における前記境界の位置の全てにおいてアクセント結合現象が生じるとの判定を下す。   Note that the number of appearances counted by the example search unit 15 for each of a plurality of types of verification phrases generated by the verification phrase generation unit 14 may be all zero. In this case, the accent combination determination unit 16 determines that an accent combination phenomenon occurs in all of the boundary positions in the morpheme string input to the verification phrase generation unit 14.

また、検証フレーズ生成部14に入力された形態素列において隣接している形態素の境界が2つのみの場合であって、且つ、そのうちの一方の位置においてはアクセント結合現象が生じないとの判定をアクセント結合判定部16が下した場合があり得る。この場合には、アクセント結合判定部16は、そのうちの他方の位置においてはアクセント結合現象が生じるとの判定を下す。   In addition, it is determined that there are only two adjacent morpheme boundaries in the morpheme string input to the verification phrase generation unit 14 and that no accent combining phenomenon occurs in one of them. There may be a case where the accent combination determination unit 16 makes a decision. In this case, the accent coupling determination unit 16 determines that an accent coupling phenomenon occurs at the other position.

アクセント結合判定部16は、以上のようにして、検証フレーズ生成部14に入力された形態素列における文字『の』の挿入位置においてアクセント結合現象が生じるか否かを判定する。この判定を以上の手法によって行うことで、用例の文章コーパス22での出現回数の多さから意味の切れ目を推定することができる。また、このようにすることで、最後尾の境界において意味の切れ目が推定された場合は、当該最後尾の境界に隣接する形態素に対応付けられているアクセント結合規則23を重視したアクセント結合現象の解析を行うことができる。従って、アクセント結合判定部16が以上のようにしてアクセント結合現象が生じるか否かの判定を行うことで、アクセント結合現象の解析精度が向上する。   As described above, the accent combination determination unit 16 determines whether an accent combination phenomenon occurs at the insertion position of the character “NO” in the morpheme string input to the verification phrase generation unit 14. By performing this determination by the above-described method, it is possible to estimate a break in meaning from the number of appearances in the example sentence corpus 22. In addition, in this way, when a break in meaning is estimated at the tail boundary, an accent joint phenomenon that emphasizes the accent joint rule 23 associated with the morpheme adjacent to the tail boundary is performed. Analysis can be performed. Therefore, the accent coupling determination unit 16 determines whether or not the accent coupling phenomenon occurs as described above, thereby improving the accuracy of the accent coupling phenomenon analysis.

なお、アクセント結合判定部16が以上のようにして文字『の』の挿入位置においてアクセント結合現象が生じるか否かの判定を行った後においても、形態素列における他の境界の位置で当該判定が下されていないものが依然として残っている場合がある。この場合には、検証フレーズ生成部14は、当該残っている境界のいずれか1つに文字『の』を挿入することによって当該形態素列について複数種類の検証フレーズを新たに生成するようにしてもよい。なお、この場合には、用例検索部15は、新たに生成された検証フレーズについて前記出現回数を計数するようにする。また、アクセント結合判定部16は、新たに生成された検証フレーズについての出現回数に基づいて、当該残っている境界の位置においてアクセント結合現象が生じるか否かの判定を行うようにする。なお、ここで、検証フレーズ生成部14は、複数種類の検証フレーズを新たに生成するときには、当該形態素列におけるアクセント結合現象が生じないとの判定が既に下されている境界の位置において該形態素列を2つに分割する。そして、分割された2つの形態素列の各々について、前記検証フレーズを新たに生成するようにする。   Even after the accent combination determination unit 16 determines whether or not the accent combination phenomenon occurs at the insertion position of the character “NO” as described above, the determination is performed at the position of another boundary in the morpheme string. There may still be things that have not been left. In this case, the verification phrase generation unit 14 may newly generate a plurality of types of verification phrases for the morpheme string by inserting the character “NO” into any one of the remaining boundaries. Good. In this case, the example search unit 15 counts the number of appearances for a newly generated verification phrase. The accent combination determination unit 16 determines whether or not an accent combination phenomenon occurs at the remaining boundary position based on the number of appearances of the newly generated verification phrase. Here, when the verification phrase generation unit 14 newly generates a plurality of types of verification phrases, the morpheme sequence is determined at the boundary position where it is already determined that the accent combination phenomenon does not occur in the morpheme sequence. Is divided into two. Then, the verification phrase is newly generated for each of the two divided morpheme strings.

上述の場合にアクセント付与装置10の各構成要素が上述のように動作することにより、4単語以上からなる日本語テキストでも、アクセント結合現象の発生の有無の判定が逐次的が行われるので、アクセント結合現象を適切に解析することができる。   Since each component of the accent assigning apparatus 10 operates as described above in the above-described case, the presence / absence of the accent coupling phenomenon is sequentially determined even in Japanese text including four words or more. The coupling phenomenon can be analyzed appropriately.

次に図5について説明する。図5は、図1のアクセント付与装置10のハードウェア構成の一例を表している。
本構成例においては、アクセント付与装置10はコンピュータ30により構成されている。コンピュータ30は、MPU31、ROM32、RAM33、ハードディスク装置34、入力装置35、出力装置36、インタフェース装置37、及び記録媒体駆動装置38を備えている。なお、これらの構成要素はバスライン39を介して接続されており、MPU31の管理の下で各種のデータを相互に授受することができる。
Next, FIG. 5 will be described. FIG. 5 shows an example of a hardware configuration of the accent applying apparatus 10 of FIG.
In this configuration example, the accent imparting apparatus 10 is configured by a computer 30. The computer 30 includes an MPU 31, a ROM 32, a RAM 33, a hard disk device 34, an input device 35, an output device 36, an interface device 37, and a recording medium drive device 38. Note that these components are connected via a bus line 39, and various data can be exchanged under the management of the MPU 31.

MPU(Micro Processing Unit)31は、コンピュータ30全体の動作を制御する演算処理装置である。
ROM(Read Only Memory)32は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。MPU31は、この基本制御プログラムをコンピュータ30の起動時に読み出して実行することにより、コンピュータ30の各構成要素の動作制御が可能になる。なお、ROM32として、フラッシュメモリ等の、記憶データが不揮発性であるメモリを使用してもよい。
An MPU (Micro Processing Unit) 31 is an arithmetic processing unit that controls the operation of the entire computer 30.
A ROM (Read Only Memory) 32 is a read-only semiconductor memory in which a predetermined basic control program is recorded in advance. The MPU 31 can control the operation of each component of the computer 30 by reading out and executing this basic control program when the computer 30 is activated. As the ROM 32, a memory such as a flash memory whose storage data is nonvolatile may be used.

RAM(Random Access Memory)33は、MPU31が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。   A RAM (Random Access Memory) 33 is a semiconductor memory that can be written and read at any time and used as a working storage area as necessary when the MPU 31 executes various control programs.

ハードディスク装置34は、MPU31によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。MPU31は、ハードディスク装置34に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。このコンピュータ30を用いてアクセント付与装置10を構成する場合には、このハードディスク装置34には図1の単語辞書21、文章コーパス22、及びアクセント結合規則23を予め格納しておくようにする。   The hard disk device 34 is a storage device that stores various control programs executed by the MPU 31 and various data. The MPU 31 can perform various control processes by reading and executing a predetermined control program stored in the hard disk device 34. When the computer 30 is used to configure the accent assigning apparatus 10, the word dictionary 21, the sentence corpus 22, and the accent combining rule 23 shown in FIG. 1 are stored in advance in the hard disk device 34.

入力装置35は、例えばキーボード装置やマウス装置であり、例えばアクセント付与装置10の使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をMPU31に送付する。アクセント付与装置10への入力である日本語テキストは、例えば入力装置35によって受け付けられる。   The input device 35 is, for example, a keyboard device or a mouse device. For example, when operated by the user of the accent imparting device 10, the input device 35 acquires and acquires various information input from the user associated with the operation content. The input information is sent to the MPU 31. Japanese text that is input to the accenting device 10 is received by the input device 35, for example.

出力装置36は例えばスピーカや液晶ディスプレイであり、MPU31から送付される出力データに応じ、合成音声の発音や、各種のテキスト・画像の表示を行う。アクセント付与装置10の出力である、入力された日本語テキストについてのアクセントは、例えば、発音される当該日本語テキストについての合成音声に与えられて出力装置36から出力され、あるいは、例えば、前述した表記法により出力装置36で表示される。   The output device 36 is, for example, a speaker or a liquid crystal display, and generates synthesized speech and displays various texts and images according to output data sent from the MPU 31. The accent of the input Japanese text, which is the output of the accent assigning device 10, is given to the synthesized speech of the Japanese text to be pronounced and output from the output device 36, or, for example, as described above It is displayed on the output device 36 by the notation.

インタフェース装置37は、このコンピュータ30に接続される各種機器との間での各種情報の授受の管理を行う。アクセント付与装置10への入力である日本語テキストは、例えば他の機器から出力されてインタフェース装置37で受け付けるようにしてもよい。また、アクセント付与装置10の出力である、入力された日本語テキストについてのアクセントは、例えば、そのアクセントの情報をインタフェース装置37から出力して他の機器へ送付するようにしてもよい。   The interface device 37 manages the exchange of various information with various devices connected to the computer 30. Japanese text that is input to the accent assignment device 10 may be output from another device and received by the interface device 37, for example. Further, for the accent of the input Japanese text, which is the output of the accent assigning device 10, for example, the accent information may be output from the interface device 37 and sent to another device.

記録媒体駆動装置38は、可搬型記録媒体40に記録されている各種の制御プログラムやデータの読み出しを行う装置である。MPU31は、可搬型記録媒体40に記録されている所定の制御プログラムを、記録媒体駆動装置38を介して読み出して実行することによって、後述するアクセント付与処理を行うようにすることもできる。なお、可搬型記録媒体40としては、例えばCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)、USB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリなどがある。   The recording medium driving device 38 is a device that reads various control programs and data recorded on the portable recording medium 40. The MPU 31 can read out and execute a predetermined control program recorded on the portable recording medium 40 via the recording medium driving device 38, thereby performing an accent applying process described later. As the portable recording medium 40, for example, a flash memory equipped with a CD-ROM (Compact Disc Read Only Memory), a DVD-ROM (Digital Versatile Disc Read Only Memory), or a USB (Universal Serial Bus) standard connector. and so on.

このようなコンピュータ30を用いてアクセント付与装置10を構成するには、例えば、後述するアクセント付与処理をMPU31に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置34若しくは可搬型記録媒体40に予め格納しておく。また、ハードディスク装置34には単語辞書21、文章コーパス22、及びアクセント結合規則23を予め格納しておくようにする。そして、MPU31に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、コンピュータ30を、テキスト入力部11、形態素解析部12、形態素修正部13、検証フレーズ生成部14、用例検索部15、アクセント結合判定部16、及び結果出力部17として機能させることが可能となる。   In order to configure the accent applying apparatus 10 using such a computer 30, for example, a control program for causing the MPU 31 to perform an accent applying process described later is created. The created control program is stored in advance in the hard disk device 34 or the portable recording medium 40. Further, the word dictionary 21, the sentence corpus 22, and the accent combination rule 23 are stored in the hard disk device 34 in advance. Then, a predetermined instruction is given to the MPU 31 to read and execute the control program. In this way, the computer 30 is caused to function as the text input unit 11, the morpheme analysis unit 12, the morpheme correction unit 13, the verification phrase generation unit 14, the example search unit 15, the accent combination determination unit 16, and the result output unit 17. Is possible.

次に、コンピュータ30のMPU31により行われるアクセント付与処理について説明する。図6は、このアクセント付与処理の処理内容を図解したフローチャートである。
図6の処理が開始されると、まず、S101において、テキスト入力処理をMPU31が行う。この処理は、日本語テキスト(ひらがな・カタカナ・漢字等のテキスト)のコンピュータ30(例えば入力装置35やインタフェース装置37)への入力を取得する処理である。この処理を行うMPU31はテキスト入力部11として機能する。
Next, an accent imparting process performed by the MPU 31 of the computer 30 will be described. FIG. 6 is a flowchart illustrating the processing contents of this accent assignment processing.
When the processing of FIG. 6 is started, first, in S101, the MPU 31 performs text input processing. This process is a process of acquiring input of Japanese text (text of hiragana, katakana, kanji, etc.) to the computer 30 (for example, the input device 35 or the interface device 37). The MPU 31 that performs this process functions as the text input unit 11.

次に、S102では、形態素解析処理をMPU31が行う。この処理は、S101の処理により取得された日本語テキストに対して形態素解析を行って、複数の形態素に分割した形態素列を得る処理である。本実施例では、ハードディスク装置34に予め格納されている単語辞書21を使用し、図2及び図3を用いて既に説明した形態素解析の手法を用いて、この形態素解析処理をMPU31が行う。この処理を行うMPU31は形態素解析部12として機能する。   Next, in S102, the MPU 31 performs morphological analysis processing. This process is a process for obtaining a morpheme string divided into a plurality of morphemes by performing morphological analysis on the Japanese text acquired by the process of S101. In this embodiment, the word dictionary 21 stored in advance in the hard disk device 34 is used, and the MPU 31 performs this morpheme analysis process using the morpheme analysis method already described with reference to FIGS. The MPU 31 that performs this process functions as the morphological analyzer 12.

次に、S103では、形態素修正処理をMPU31が行う。この処理は、S102の処理により得られた形態素列を構成している複数の形態素から、単体では語彙的な意味をなしておらず他の形態素と共に用いられる形態素と、当該他の形態素とを抽出して両者を結合して1つの形態素として扱うようにする処理である。例えば、形態素列を構成している複数の形態素に接辞が含まれていた場合には、この処理により、この接辞である形態素と当該複数の形態素のうちの当該接辞についての語幹である形態素とを結合させて得られる合成語が1つの形態素として扱われるようになる。この処理を行うMPU31は形態素修正部13として機能する。   Next, in S103, the MPU 31 performs a morpheme correction process. This process extracts morphemes that do not have a lexical meaning by themselves and are used with other morphemes, and the other morphemes, from a plurality of morphemes constituting the morpheme string obtained by the processing of S102 Thus, both are combined and handled as one morpheme. For example, when affixes are included in a plurality of morphemes constituting a morpheme string, this process results in the morpheme that is the affix and the morpheme that is the stem of the affix among the plurality of morphemes. The combined word obtained by combining is handled as one morpheme. The MPU 31 that performs this process functions as the morpheme correction unit 13.

次に、S104では、検証フレーズ生成処理をMPU31が行う。この処理は、S102の処理により得られた形態素列から、若しくは、S103の処理により形態素の修正が行われた場合には当該修正後の形態素列から、検証フレーズを複数種類生成する処理である。複数種類の検証フレーズの生成は、処理対象の形態素列において隣接している形態素の境界のいずれか1つに、助詞である文字『の』を挿入することによって行われる。この処理を行うMPU31は検証フレーズ生成部14として機能する。   Next, in S104, the MPU 31 performs verification phrase generation processing. This process is a process for generating a plurality of types of verification phrases from the morpheme string obtained by the process of S102 or, when the morpheme is corrected by the process of S103, from the corrected morpheme string. Generation of a plurality of types of verification phrases is performed by inserting the letter “NO” as a particle at any one of the boundaries of adjacent morphemes in the morpheme string to be processed. The MPU 31 that performs this process functions as the verification phrase generator 14.

次に、S105では、用例検索処理をMPU31が行う。この処理は、S104の処理により生成された複数種類の検証フレーズの各々について、ハードディスク装置34に予め格納されている文章コーパス22に現れる出現回数を計数する処理である。この処理を行うMPU31は用例検索部15として機能する。   Next, in S105, the MPU 31 performs an example search process. This process is a process of counting the number of appearances appearing in the sentence corpus 22 stored in advance in the hard disk device 34 for each of a plurality of types of verification phrases generated by the process of S104. The MPU 31 that performs this process functions as the example search unit 15.

次に、S106では、アクセント結合判定処理をMPU31が行う。この処理は、S104の処理による文字『の』の挿入位置に隣接している2つの形態素を結合させると、アクセント結合現象が生じるか否かを判定する処理である。この判定は、当該2つの形態素に各々対応付けられている2つの形態素間のアクセント結合規則23と、S105の処理による、複数種類の検証フレーズ毎の前記出現回数の計数結果とに基づいて行われる。なお、アクセント結合規則23はハードディスク装置34に予め格納されている。この処理を行うMPU31はアクセント結合判定部16として機能し、この処理によるアクセント結合現象が生じるか否かの判定には、前述したアクセント結合判定部16による判定手法が用いられる。   Next, in S106, the MPU 31 performs an accent joint determination process. This process is a process for determining whether or not an accent combining phenomenon occurs when two morphemes adjacent to the insertion position of the character “NO” in the process of S104 are combined. This determination is performed based on the accent combination rule 23 between the two morphemes respectively associated with the two morphemes and the count result of the number of appearances for each of the plurality of types of verification phrases by the process of S105. . The accent combination rule 23 is stored in the hard disk device 34 in advance. The MPU 31 that performs this process functions as the accent coupling determination unit 16, and the above-described determination method by the accent coupling determination unit 16 is used to determine whether or not an accent coupling phenomenon occurs due to this processing.

次に、S107では、S106の判定処理の対象であった形態素列における形態素の境界に、アクセント結合現象が生じるか否かの判定が未だ下されていない境界が依然として残っているか否かを判定する処理をMPU31が行う。   Next, in S107, it is determined whether or not there is still a boundary that has not yet been determined whether or not the accent coupling phenomenon occurs at the morpheme boundary in the morpheme sequence that is the target of the determination process in S106. Processing is performed by the MPU 31.

MPU31は、このS107の判定処理において、そのような未判定の境界が残っていると判定したとき(判定結果がYesのとき)には、S104に処理を戻して前述した処理を繰り返す。このとき、S104の検証フレーズ生成処理では、当該未判定の境界のいずれか1つに文字『の』を挿入することによって、当該形態素列について複数種類の検証フレーズを新たに生成する処理を行う。そして、続くS105の用例検索処理では、新たに生成された検証フレーズについて、前述の出現回数を計数する処理を行う。そして、続くS106のアクセント結合判定処理では、S105の処理で計数された、新たに生成された検証フレーズについての出現回数に基づいて、文字『の』が挿入された当該未判定の境界の位置においてアクセント結合現象が生じるか否かの判定処理を行う。   When the MPU 31 determines in the determination process of S107 that such an undetermined boundary remains (when the determination result is Yes), the MPU 31 returns the process to S104 and repeats the above-described process. At this time, in the verification phrase generation process of S104, a process of newly generating a plurality of types of verification phrases for the morpheme string is performed by inserting the character “NO” into any one of the undetermined boundaries. Then, in the subsequent example search process of S105, a process of counting the number of appearances described above is performed for a newly generated verification phrase. Then, in the subsequent accent joint determination process of S106, the character “NO” is inserted at the position of the undetermined boundary where the character “NO” is inserted based on the number of appearances of the newly generated verification phrase counted in the process of S105. A determination process is performed to determine whether or not an accent coupling phenomenon occurs.

一方、MPU31は、S107の判定処理において、未判定の境界が残っていないと判定したとき(判定結果がNoのとき)には、S108に処理を進める。
S108では、結果出力処理をMPU31が行う。この処理は、S101の処理により取得された日本語テキストについてのアクセント情報を作成して、コンピュータ30の例えば出力装置36やインタフェース装置37から出力する処理である。このアクセント情報の作成は、S104の処理対象の形態素列を構成している複数の形態素の各々についてのアクセント情報を、S106のアクセント結合判定処理による判定結果に基づいて変更することによって行われる。
On the other hand, when the MPU 31 determines in the determination process of S107 that there is no undetermined boundary (when the determination result is No), the process proceeds to S108.
In S108, the MPU 31 performs a result output process. This process is a process of creating accent information for the Japanese text acquired by the process of S101 and outputting the accent information from the output device 36 or the interface device 37 of the computer 30, for example. The creation of the accent information is performed by changing the accent information for each of the plurality of morphemes constituting the morpheme sequence to be processed in S104 based on the determination result by the accent combination determination process in S106.

上述のS108の処理を終えると、図6のアクセント付与処理が終了する。
以上のアクセント付与処理をMPU31が行うことによって、コンピュータ30がアクセント付与装置10として動作し、入力された日本語テキストについてのアクセント情報を作成して出力できるようになる。
When the process of S108 described above is completed, the accent imparting process in FIG. 6 ends.
When the MPU 31 performs the above accent assignment processing, the computer 30 operates as the accent assignment device 10 and can create and output accent information for the input Japanese text.

以下、アクセント付与装置10に入力される幾つかの日本語テキストの例を用いて、上述した図6のアクセント付与処理を具体的に説明する。
[1]『衆院復興特別委員会』の場合
まず、日本語テキスト『衆院復興特別委員会』がアクセント付与装置10に入力された場合について説明する。
Hereinafter, the above-described accent assignment process of FIG. 6 will be described in detail using examples of some Japanese texts input to the accent assignment apparatus 10.
[1] Case of “Senior House Reconstruction Special Committee” First, the case where the Japanese text “Senshuin Reconstruction Special Committee” is input to the accent assignment device 10 will be described.

S101のテキスト入力処理によって、日本語テキスト『衆院復興特別委員会』が取得されると、次に、S102において形態素解析処理が行われる。この処理によって形態素列『衆院|復興|特別|委員|会』という解析結果が得られたとする。なお、記号『|』は、形態素列において隣接している形態素の境界位置を表すものとする。   When the Japanese text “Special Committee for Reconstruction of the House of Representatives” is acquired by the text input process of S101, next, a morphological analysis process is performed in S102. It is assumed that an analysis result of the morpheme string “Shrine | Reconstruction | Special | Committee | Meeting” is obtained by this processing. The symbol “|” represents the boundary position of adjacent morphemes in the morpheme string.

次に、形態素列『衆院|復興|特別|委員|会』に対してS103の形態素修正処理が行われる。ここで、単語辞書21の形態素テーブルに形態素『会』が接尾語であることを表す情報が含まれていたものとする。この場合、形態素修正処理によって形態素『委員』と形態素『会』との結合が行われ、得られた合成語『委員会』が1つの形態素として扱われる。この結果、形態素列『衆院|復興|特別|委員|会』は、形態素列『衆院|復興|特別|委員会』に修正される。   Next, the morpheme correction process of S103 is performed on the morpheme string “Shu-Shin | Reconstruction | Special | Committee | Meeting”. Here, it is assumed that the morpheme table of the word dictionary 21 includes information indicating that the morpheme “kai” is a suffix. In this case, the morpheme “committee” and the morpheme “meeting” are combined by the morpheme correction processing, and the obtained composite word “committee” is treated as one morpheme. As a result, the morpheme sequence “Senshui | Reconstruction | Special | Committee | Meeting” is revised to the morpheme sequence “Senshui | Reconstruction | Special | Committee”.

次に、以上のようにして得られた形態素列『衆院|復興|特別|委員会』に対し、S104の検証フレーズ生成処理が行われる。この処理により、『衆院』と『復興』との間、『復興』と『特別』との間、及び『特別』と『委員会』との間の各々に文字『の』が挿入されて、検証フレーズ『衆院の復興特別委員会』、『衆院復興の特別委員会』、及び『衆院復興特別の委員会』が生成される。   Next, the verification phrase generation process of S104 is performed on the morpheme string “Shu-Shin | Reconstruction | Special | Committee” obtained as described above. Through this process, the character “no” is inserted between “Representative House” and “Reconstruction”, between “Reconstruction” and “Special”, and between “Special” and “Committee”. The verification phrases “Special Committee for Reconstruction of the House of Representatives”, “Special Committee for Reconstruction of the House of Representatives”, and “Special Committee for Reconstruction of the House of Representatives” are generated.

次に、以上のようにして得られた3つの検証フレーズについて、S105の用例検索処理が行われる。ここでは、上記の3つの検証フレーズの文章コーパス22における出現回数についての用例検索処理による計数結果が、それぞれ下記の通りであったものとする。
・『衆院の復興特別委員会』………104回
・『衆院復興の特別委員会』………0回
・『衆院復興特別の委員会』………0回
Next, the example search process of S105 is performed for the three verification phrases obtained as described above. Here, it is assumed that the count results of the example search process for the number of appearances of the three verification phrases in the sentence corpus 22 are as follows.
・ “Special Committee for Reconstruction of the House of Representatives” ... 104 times ・ “Special Committee for the Reconstruction of the House of Representatives” ... …… 0 times ・ “Special Committee for Reconstruction of the House of Representatives” ……… 0 times

次に、形態素列『衆院|復興|特別|委員会』に対し、S106のアクセント結合判定処理が行われる。
この処理では、まず、上記の3つの検証フレーズのうちで、S105の用例検索処理による計数値が最大値104回である検証フレーズ『衆院の復興特別委員会』が、前述した判定対象検証フレーズとして注目される。
Next, the accent combination determination process of S106 is performed for the morpheme string “Senshui | Reconstruction | Special | Committee”.
In this process, first, among the above three verification phrases, the verification phrase “Special Committee for Reconstruction of the House of Representatives” whose count value by the example search process in S105 is 104 times is the verification target verification phrase described above. Attention.

そして、判定対象検証フレーズ『衆院の復興特別委員会』と、他の検証フレーズ『衆院復興の特別委員会』及び『衆院復興特別の委員会』の各々との出現回数の比が、所定の判定閾値よりも大きいか否かが判定される。但し、ここでは、他の検証フレーズ『衆院復興の特別委員会』及び『衆院復興特別の委員会』の用例検索処理による計数値はどちらも0回である。従って、判定対象検証フレーズについての、当該その他の検証フレーズに対する前述の出現回数の比は、どちらも所定の判定閾値よりも大きいとの判定が下される。   Then, the ratio of the number of occurrences of the verification phrase “Senior Reconstruction Special Committee” and each of the other verification phrases “Special Committee for Reconstruction of the Lower House” and “Special Committee for Reconstruction of the Lower House” It is determined whether or not it is larger than the threshold value. However, here, the count values obtained by the example search processing of the other verification phrases “Special Committee for Reconstruction of the Lower House” and “Special Committee for Reconstruction of the Lower House” are both zero. Therefore, it is determined that the ratio of the number of appearances described above with respect to the other verification phrases for the determination target verification phrase is larger than a predetermined determination threshold value.

すると、次に、判定対象検証フレーズ『衆院の復興特別委員会』における文字『の』の挿入位置が注目され、この挿入位置が、形態素列『衆院|復興|特別|委員会』における最後尾の境界であるか否かが判定される。この例では、文字『の』の挿入位置は形態素列『衆院|復興|特別|委員会』における最後尾の境界ではないので、日本語テキスト『衆院復興特別委員会』における形態素『衆院』と『復興』との間ではアクセント結合現象が生じないとの判定が下される。   Then, the insertion position of the character “NO” in the verification target verification phrase “Senshuin Reconstruction Special Committee” is noticed, and this insertion position is the last of the morpheme sequence “Senshui | Reconstruction | Special | Committee”. It is determined whether it is a boundary. In this example, the insertion position of the character “no” is not the last boundary in the morpheme sequence “Shrine House | Reconstruction | Special | Committee”, so the morphemes “Shrine House” and “ It is determined that the accent coupling phenomenon does not occur between “Reconstruction” and “Reconstruction”.

なお、以下の説明では、形態素列においてアクセント結合現象が生じないとの判定が下された形態素の境界には記号『/』を付して、当該記号に隣接する2つの形態素は非結合であることを表現するようにする。従って、以上までの処理によって、『衆院』と『復興』との間ではアクセント結合現象が生じないとの判定が下された形態素列『衆院|復興|特別|委員会』は、『衆院/復興|特別|委員会』と表記される。   In the following description, a symbol “/” is attached to the boundary of a morpheme that is determined not to cause an accent coupling phenomenon in a morpheme string, and two morphemes adjacent to the symbol are non-coupled. Try to express that. Therefore, the morpheme sequence “Senshui | Reconstruction | Special | Commission”, in which it was determined that the accent coupling phenomenon does not occur between “Senshuin” and “Reconstruction” by the above processing, | Special | Committee].

また、上述した記号『/』を付した形態素列の表現に対応して、形態素列においてアクセント結合現象が生じるとの判定が下された形態素の境界には、記号『/』及び『|』の両者をどちらも付さないで形態素列を表記するものとする。   Corresponding to the expression of the morpheme sequence with the symbol “/” described above, the boundaries of the morphemes where it is determined that the accent coupling phenomenon occurs in the morpheme sequence are the symbols “/” and “|”. A morpheme string is written without both.

次に、形態素列『衆院/復興|特別|委員会』に対し、S107の判定処理が行われて、アクセント結合現象が生じるか否かの判定が未だ下されていない境界が依然として残っているとの判定が下される。従って、この場合には、形態素列『衆院/復興|特別|委員会』を非結合の境界で分割して、形態素『衆院』と形態素列『復興|特別|委員会』とを得る。このうち形態素『衆院』にはアクセント結合現象の発生有無の判定対象となる形態素の境界が存在しない。従って、他方の形態素列『復興|特別|委員会』に対し、S104の検証フレーズ生成処理が次に行われる。この処理により、『復興』と『特別』との間及び『特別』と『委員会』との間の各々に文字『の』が挿入されて、検証フレーズ『復興の特別委員会』及び『復興特別の委員会』が生成される。   Next, if the morpheme string “Senior / Reconstruction | Special | Committee” is subjected to the determination process of S107, there is still a boundary that has not yet been determined whether or not the accent coupling phenomenon occurs. Is made. Therefore, in this case, the morpheme sequence “Senior / Reconstruction | Special | Committee” is divided at the boundary of non-bonding to obtain the morpheme “Senior House” and the morpheme sequence “Reconstruction | Special | Committee”. Of these, the morpheme “Shionin” has no morpheme boundary that is subject to the determination of whether or not an accent coupling phenomenon has occurred. Therefore, the verification phrase generation process of S104 is performed next for the other morpheme string “reconstruction | special | committee”. Through this process, the characters “no” are inserted between “reconstruction” and “special” and between “special” and “committee”, respectively, and the verification phrases “special committee for reconstruction” and “reconstruction” A special committee '' is generated.

次に、以上のようにして得られた2つの検証フレーズについて、S105の用例検索処理が行われる。ここでは、上記の2つの検証フレーズの文章コーパス22における出現回数についての用例検索処理による計数結果が、それぞれ下記の通りであったものとする。
・『復興の特別委員会』………110回
・『復興特別の委員会』………0回
Next, the example search process of S105 is performed for the two verification phrases obtained as described above. Here, it is assumed that the count results of the example search process for the number of appearances of the two verification phrases in the sentence corpus 22 are as follows.
・ "Reconstruction Special Committee" ......... 110 times ・ "Reconstruction Special Committee" ......... 0 times

次に、形態素列『復興|特別|委員会』に対し、S106のアクセント結合判定処理が行われる。
この処理では、まず、上記の2つの検証フレーズのうちで、S105の用例検索処理による計数値が最大値110回である検証フレーズ『復興の特別委員会』が、前述した判定対象検証フレーズとして注目される。
Next, the accent combination determination process of S106 is performed for the morpheme string “reconstruction | special | committee”.
In this process, first, of the above two verification phrases, the verification phrase “Special Committee for Reconstruction” whose count value by the example search process in S105 is 110 times is the attention as the above-described determination target verification phrase. Is done.

そして、判定対象検証フレーズ『復興の特別委員会』と、他の検証フレーズ『復興特別の委員会』との出現回数の比が、所定の判定閾値よりも大きいか否かが判定される。但し、ここでは、他の検証フレーズ『復興特別の委員会』の用例検索処理による計数値は0回である。従って、判定対象検証フレーズについての、当該その他の検証フレーズに対する前述の出現回数の比は、所定の判定閾値よりも大きいとの判定が下される。   Then, it is determined whether the ratio of the number of appearances of the determination target verification phrase “reconstruction special committee” and the other verification phrase “reconstruction special committee” is greater than a predetermined determination threshold. However, here, the count value by the example search process of the other verification phrase “reconstruction special committee” is zero. Therefore, it is determined that the ratio of the number of appearances described above with respect to the other verification phrases for the determination target verification phrase is larger than a predetermined determination threshold.

すると、次に、判定対象検証フレーズ『復興の特別委員会』における文字『の』の挿入位置が注目され、この挿入位置が、形態素列『復興|特別|委員会』における最後尾の境界であるか否かが判定される。この例では、文字『の』の挿入位置は形態素列『復興|特別|委員会』における最後尾の境界ではないので、日本語テキスト『衆院復興特別委員会』における形態素『復興』と『特別』との間ではアクセント結合現象が生じないとの判定が下される。従って、形態素列『復興|特別|委員会』は『復興/特別|委員会』となる。   Then, the insertion position of the character “no” in the verification phrase “reconstruction special committee” is noticed, and this insertion position is the last boundary in the morpheme sequence “reconstruction | special | committee” It is determined whether or not. In this example, the insertion position of the character “no” is not the last boundary in the morpheme sequence “Reconstruction | Special | Committee”, so the morphemes “Reconstruction” and “Special” in the Japanese text “Reunion Special Committee” Is determined that no accent coupling phenomenon occurs. Therefore, the morphological sequence “Reconstruction | Special | Committee” becomes “Reconstruction / Special | Committee”.

ところで、形態素列『復興|特別|委員会』は、隣接している形態素の境界が2つのみであって、且つ、そのうちの一方である形態素『復興』と『特別』との境界の位置においては、上述した処理によってアクセント結合現象が生じないとの判定が下されている。従って、この場合には、形態素列『復興|特別|委員会』における他方の境界である、形態素『特別』と『委員会』との境界の位置においてはアクセント結合現象が生じるとの判定が下される。   By the way, the morpheme sequence “Reconstruction | Special | Committee” has only two borders between adjacent morphemes, and one of them is the border between the morpheme “Reconstruction” and “Special”. Has been determined that the accent combining phenomenon does not occur by the above-described processing. Therefore, in this case, it is judged that the accent coupling phenomenon occurs at the position of the boundary between the morpheme “special” and “committee”, which is the other boundary in the morpheme sequence “reconstruction | special | committee”. Is done.

以上までの処理の結果、形態素列『衆院|復興|特別|委員会』に対するアクセント結合判定処理の最終結果として、『衆院/復興/特別委員会』が得られる。この後に行われるS107の判定処理の判定結果はNoとなり、S108の結果出力処理が行われる。   As a result of the processing described so far, the final result of the accent combination determination process for the morpheme string “Senior House | Reconstruction | Special | Committee” is obtained as “Senior House / Reconstruction / Special Committee”. The determination result of the determination process of S107 performed after this is No, and the result output process of S108 is performed.

結果出力処理では、まず、形態素『衆院』、『復興』、『特別』、及び『委員会』の各々についてのアクセントを、単語辞書21の形態素テーブルから取得する処理が行われる。ここでは、これらの形態素の各々についてのアクセントの取得結果が、下記の通りであったものとする。
・『衆院』………『シューイン』
・『復興』………『フッコー』
・『特別』………『トクベツ』
・『委員会』……『イ’インカイ』
In the result output process, first, the process of acquiring the accents for each of the morphemes “Shrine”, “Reconstruction”, “Special”, and “Committee” from the morpheme table of the word dictionary 21 is performed. Here, it is assumed that the accent acquisition results for each of these morphemes are as follows.
・ "Shrine" ......... "Shoe-in"
・ "Reconstruction" ......... "Fucco"
・ "Special" ......... "Tokubetsu"
・ "Committee" …… "Lee Inkai"

なお、『委員会』は、S103の形態素修正処理によって1つの形態素として扱うようにした合成語であるが、形態素テーブルには、このような、1つの形態素として扱われる合成語についての情報も、予め備えられているものとする。   Note that the “committee” is a compound word that is treated as one morpheme by the morpheme correction processing in S103, but the morpheme table also includes information on such a compound word treated as one morpheme. It is assumed that it is prepared in advance.

ここで、前述したアクセント結合判定処理の最終結果として、形態素『特別』と『委員会』との境界ではアクセント結合現象が発生すると判定されている。そこで、形態素『特別』と『委員会』との個々のアクセントを、アクセント結合規則23に従って変化させる処理が以下のようにして行われる。   Here, as a final result of the above-described accent combination determination process, it is determined that an accent combination phenomenon occurs at the boundary between the morphemes “special” and “committee”. Therefore, processing for changing the individual accents of the morphemes “special” and “committee” according to the accent combining rule 23 is performed as follows.

まず、形態素『特別』が注目される。この形態素『特別』は、形態素『委員会』との合成語『特別委員会』において『前方』に位置している。また、形態素『特別』の結合先である形態素『委員会』の品詞が少なくとも『接尾語』ではないことは、単語辞書21の形態素テーブルの情報から判明する。そこで、図4のアクセント結合規則23のテーブルにおける「見出し語」が『特別』であって「位置」が『前方』であり、且つ「結合先品詞」が『その他』であるレコードが参照される。すると、このレコードには、「結合有無」が『有』が、「変形型」には『無変形』が、そして、「例外」には『無』が、それぞれ格納されていることが分かる。従って、形態素『特別』は、形態素テーブルに登録されていたアクセント『トクベツ』から無変形のままとされる。   First, the morpheme “special” is noted. This morpheme “special” is positioned “forward” in the compound word “special committee” with the morpheme “committee”. Further, it is found from the information of the morpheme table of the word dictionary 21 that the part of speech of the morpheme “committee” to which the morpheme “special” is combined is not at least “suffix”. Therefore, a record in which “headword” in the table of the accent combination rule 23 in FIG. 4 is “special”, “position” is “forward”, and “part of speech to be combined” is “other” is referred to. . Then, it can be seen that “Yes” is stored in this record, “No change” is stored in “Deformation type”, and “No” is stored in “Exception”. Therefore, the morpheme “special” is left unchanged from the accent “Tokubetsu” registered in the morpheme table.

次に、形態素『委員会』が注目される。この形態素『委員会』は、形態素『特別』との合成語『特別委員会』において『後方』に位置している。そこで、図4のアクセント結合規則23のテーブルにおける「見出し語」が『特別』であって、且つ「位置」が『後方』であるレコードが参照される。なお、このレコードの「結合先行詞」は『任意』であるから、形態素『委員会』の品詞を調べる処理は不要である。このレコードには、「結合有無」が『有』が、「変形型」には『無変形』が、そして、「例外」には『無』が、それぞれ格納されていることが分かる。従って、形態素『委員会』も、形態素テーブルに登録されていたアクセント『イ’インカイ』から無変形のままとされる。   Next, the morpheme “Committee” attracts attention. This morpheme “committee” is located “backward” in the compound word “special committee” with the morpheme “special”. Therefore, a record in which “headword” in the table of the accent combination rule 23 in FIG. 4 is “special” and “position” is “backward” is referred to. Since the “joint predecessor” of this record is “arbitrary”, the process of checking the part of speech of the morpheme “committee” is not necessary. It can be seen that this record stores “Yes”, “No change” for “Deformation type”, and “No” for “Exception”. Therefore, the morpheme “committee” is also left undeformed from the accent “I'inkai” registered in the morpheme table.

なお、形態素『特別』についての参照レコードと形態素『委員会』についての参照レコードとにおける「結合有無」は、どちらも『有』で一致しており相反していない。従って、合成語『特別委員会』のアクセント情報として、形態素『特別』についての無変形のアクセント『トクベツ』と、形態素『委員会』についての無変形のアクセント『イ’インカイ』とを結合させた『トクベツイ’インカイ』が作成される。   It should be noted that the “combination presence / absence” in the reference record for the morpheme “special” and the reference record for the morpheme “committee” are both “Yes” and are not in conflict. Therefore, as the accent information of the compound word “Special Committee”, the unmodified accent “Tokubetsu” for the morpheme “Special” and the unmodified accent “I'Inkai” for the morpheme “Committee” were combined. “Tokubetsui Inkai” is created.

以上の処理の結果、日本語テキスト『衆院復興特別委員会』のアクセント情報『シューイン フッコー トクベツイ’インカイ』が作成されて出力される。   As a result of the above processing, the accent information “Shoein Fukuko Tokubei 'Inkai” of the Japanese text “Special Committee for Reconstruction of the House of Representatives” is created and output.

[2]『採用情報掲載』の場合
次に、日本語テキスト『採用情報掲載』がアクセント付与装置10に入力された場合について説明する。
[2] Case of “Recruitment Information Posting” Next, a case where the Japanese text “Recruitment Information Posting” is input to the accent assignment device 10 will be described.

S101のテキスト入力処理によって、日本語テキスト『採用情報掲載』が取得されると、次に、S102において形態素解析処理が行われる。この処理によって形態素列『採用|情報|掲載』という解析結果が得られたとする。   When the Japanese text “recruitment information posting” is acquired by the text input processing of S101, next, morphological analysis processing is performed in S102. It is assumed that an analysis result of morpheme string “adoption | information | publishing” is obtained by this processing.

次に、S103の形態素修正処理が行われるが、形態素列『採用|情報|掲載』に対しては形態素列の修正は行われない。
次に、形態素列『採用|情報|掲載』に対してS104の検証フレーズ生成処理が行われる。この処理により、『採用』と『情報』との間、及び『情報』と『掲載』との間の各々に文字『の』が挿入されて、検証フレーズ『採用の情報掲載』及び『採用情報の掲載』が生成される。
Next, although the morpheme correction process of S103 is performed, the morpheme string is not corrected for the morpheme string “adopted | information | published”.
Next, the verification phrase generation process of S104 is performed for the morpheme string “adopt | information | post”. Through this process, the characters “no” are inserted between “recruitment” and “information” and between “information” and “publish”, respectively, and the verification phrases “recruitment information publication” and “recruitment information” are inserted. ”Is generated.

次に、以上のようにして得られた2つの検証フレーズについて、S105の用例検索処理が行われる。ここでは、上記の2つの検証フレーズの文章コーパス22における出現回数についての用例検索処理による計数結果が、それぞれ下記の通りであったものとする。
・『採用の情報掲載』………26回
・『採用情報の掲載』………283回
Next, the example search process of S105 is performed for the two verification phrases obtained as described above. Here, it is assumed that the count results of the example search process for the number of appearances of the two verification phrases in the sentence corpus 22 are as follows.
・ "Recruitment information posting" ......... 26 times ・ "Recruitment information posting" ......... 283 times

次に、形態素列『採用|情報|掲載』に対し、S106のアクセント結合判定処理が行われる。
この処理では、まず、上記の2つの検証フレーズのうちで、S105の用例検索処理による計数値が最大値283回である検証フレーズ『採用情報の掲載』が、前述した判定対象検証フレーズとして注目される。
Next, the accent combination determination process of S106 is performed for the morpheme string “adopt | information | post”.
In this process, first, of the above two verification phrases, the verification phrase “post employment information” having a maximum count value of 283 times in the example search process of S105 is noted as the above-described determination target verification phrase. The

そして、判定対象検証フレーズ『採用情報の掲載』と、他の検証フレーズ『採用の情報掲載』との出現回数の比が、所定の判定閾値よりも大きいか否かが判定される。ここで、判定閾値が例えば3に設定されていると、判定対象検証フレーズと他の検証フレーズとの出現回数の比は、283/26、すなわち約11であるので、判定閾値よりも大きいとの判定が下される。   Then, it is determined whether or not the ratio of the number of appearances of the determination target verification phrase “recruitment information posting” and the other verification phrase “recruitment information posting” is greater than a predetermined determination threshold. Here, if the determination threshold is set to 3, for example, the ratio of the number of appearances of the determination target verification phrase and the other verification phrases is 283/26, that is, about 11, and thus is larger than the determination threshold. A decision is made.

すると、この場合には、次に、判定対象検証フレーズ『採用情報の掲載』における文字『の』の挿入位置が注目され、この挿入位置が、形態素列『採用|情報|掲載』における最後尾の境界であるか否かが判定される。この例では、文字『の』の挿入位置は形態素列『採用|情報|掲載』における最後尾の境界である。従って、この最後尾の境界においてアクセント結合現象が生じるか否かが、この最後尾の境界に隣接している2つの形態素についてのアクセント結合規則23に従って判定される。   Then, in this case, the insertion position of the character “no” in the verification target verification phrase “posting employment information” is noticed, and this insertion position is the last in the morpheme string “recruitment | information | posting”. It is determined whether it is a boundary. In this example, the insertion position of the character “NO” is the last boundary in the morpheme string “adopt | information | published”. Accordingly, whether or not an accent coupling phenomenon occurs at the last boundary is determined according to the accent coupling rule 23 for two morphemes adjacent to the last boundary.

まず、形態素『情報』が注目される。この形態素『情報』は、形態素『掲載』との合成語『情報掲載』において『前方』に位置している。また、形態素『情報』の結合先である形態素『掲載』の品詞が少なくとも『接尾語』ではないことは、単語辞書21の形態素テーブルの情報から判明する。そこで、図4のアクセント結合規則23のテーブルにおける「見出し語」が『情報』であって「位置」が『前方』であり、且つ「結合先品詞」が『その他』であるレコードの「影響」及び「結合有無」が参照される。すると、このレコードには、「影響」には『小』が、そして、「結合有無」には『有』が、それぞれ格納されていることが分かる。   First, the morpheme “information” is noted. This morpheme “information” is positioned “forward” in the compound word “information publication” with the morpheme “publication”. Further, it is found from the information in the morpheme table of the word dictionary 21 that the part of speech of the morpheme “published” that is the combination destination of the morpheme “information” is not “suffix”. Therefore, in the table of the accent combination rule 23 in FIG. 4, the “influence” of the record whose “entry word” is “information”, “position” is “forward”, and “participant part-of-speech” is “other”. And “bonded”. Then, it can be seen that “small” is stored in the “influence”, and “present” is stored in the “combination presence / absence” in this record.

次に、形態素『掲載』が注目される。この形態素『掲載』は、形態素『情報』との合成語『情報掲載』において『後方』に位置している。そこで、図4のアクセント結合規則23のテーブルにおける「見出し語」が『掲載』であって、且つ「位置」が『後方』であるレコードが参照される。なお、このレコードの「結合先行詞」は『任意』であるから、形態素『情報』の品詞を調べる処理は不要である。従って、「影響」が『大』であり、そして、「結合有無」が『無』であることが分かる。つまり、この場合には、合成語『情報掲載』を構成している2つの形態素の間で「結合有無」の情報が相反している。従って、この場合には、「影響」が『大』である形態素『掲載』についての「結合有無」のデータに基づき、合成語『情報掲載』においてはアクセント結合現象が生じないとの判定が下される。従って、形態素列『採用|情報|掲載』は『採用|情報/掲載』となる。   Next, the morpheme “publishing” attracts attention. This morpheme “published” is located “backward” in the compound word “information published” with the morpheme “information”. Therefore, a record in which “headword” in the table of the accent combination rule 23 in FIG. 4 is “published” and “position” is “backward” is referred to. Note that since the “combined antecedent” of this record is “arbitrary”, the process of examining the part of speech of the morpheme “information” is unnecessary. Therefore, it can be seen that “Influence” is “Large”, and “Combination presence / absence” is “None”. In other words, in this case, the information on “combination presence / absence” is contradictory between the two morphemes constituting the composite word “information posting”. Therefore, in this case, based on the data of “combination presence / absence” for the morpheme “publishing” whose “influence” is “large”, it is judged that the accent combining phenomenon does not occur in the composite word “information posting”. Is done. Therefore, the morpheme string “adoption | information | publication” becomes “adoption | information / publication”.

ところで、形態素列『採用|情報|掲載』は、隣接している形態素の境界が2つのみであって、且つ、そのうちの一方である形態素『情報』と『掲載』との境界の位置においては、上述した処理によってアクセント結合現象が生じないとの判定が下されている。従って、この場合には、形態素列『採用|情報|掲載』における他方の境界である、形態素『採用』と『情報』との境界の位置においてはアクセント結合現象が生じるとの判定が下される。   By the way, the morpheme string “adopt | information | publishing” has only two borders between adjacent morphemes, and at the position of the border between the morpheme “information” and “publishing” which is one of them. Therefore, it is determined that the accent coupling phenomenon does not occur by the above-described processing. Therefore, in this case, it is determined that an accent coupling phenomenon occurs at the position of the boundary between the morpheme “adopt” and “information”, which is the other boundary in the morpheme string “adopt | information | publication”. .

以上までの処理の結果、形態素列『採用|情報|掲載』に対するアクセント結合判定処理の最終結果として、『採用情報/掲載』が得られる。この後に行われるS107の判定処理の判定結果はNoとなり、S108の結果出力処理が行われる。   As a result of the above processing, “adopting information / publishing” is obtained as the final result of the accent combination determination processing for the morpheme string “adopting | information | posting”. The determination result of the determination process of S107 performed after this is No, and the result output process of S108 is performed.

結果出力処理では、まず、形態素『採用』、『情報』、及び『掲載』の各々についてのアクセントを、単語辞書21の形態素テーブルから取得する処理が行われる。ここでは、これらの形態素の各々についてのアクセントの取得結果が、下記の通りであったものとする。
・『採用』………『サイヨー』
・『情報』………『ジョーホー』
・『掲載』………『ケーサイ』
In the result output process, first, a process of acquiring accents for each of the morphemes “adopted”, “information”, and “published” from the morpheme table of the word dictionary 21 is performed. Here, it is assumed that the accent acquisition results for each of these morphemes are as follows.
・ “Recruitment” ……… “Saiyo”
・ "Information" ......... "Joe Ho"
・ "Publishing" ......... "Keisai"

ここで、前述したアクセント結合判定処理の最終結果として、形態素『採用』と『情報』との境界ではアクセント結合現象が発生すると判定されている。そこで、形態素『採用』と『情報』との個々のアクセントを、アクセント結合規則23に従って変化させる処理が以下のようにして行われる。   Here, as a final result of the above-described accent combination determination process, it is determined that an accent combination phenomenon occurs at the boundary between the morphemes “adopted” and “information”. Therefore, processing for changing the individual accents of the morphemes “adopt” and “information” in accordance with the accent combining rule 23 is performed as follows.

まず、形態素『採用』が注目される。この形態素『採用』は、形態素『情報』との合成語『採用情報』において『前方』に位置している。また、形態素『採用』の結合先である形態素『情報』の品詞が少なくとも『接尾語』ではないことは、単語辞書21の形態素テーブルの情報から判明する。そこで、図4のアクセント結合規則23のテーブルにおける「見出し語」が『採用』であって「位置」が『前方』であり、且つ「結合先品詞」が『その他』であるレコードが参照される。すると、このレコードには、「結合有無」が『有』が、「変形型」には『無変形』が、そして、「例外」には『無』が、それぞれ格納されていることが分かる。従って、形態素『採用』は、形態素テーブルに登録されていたアクセント『サイヨー』から無変形のままとされる。   First, the morpheme “adoption” is noted. This morpheme “recruitment” is positioned “forward” in the compound word “recruitment information” with the morpheme “information”. Further, it is found from the information in the morpheme table of the word dictionary 21 that the part of speech of the morpheme “information” that is the combination destination of the morpheme “adopt” is not “suffix”. Therefore, a record in which “headword” is “adopted”, “position” is “front”, and “participant part-of-speech” is “other” in the table of the accent combining rule 23 in FIG. . Then, it can be seen that “Yes” is stored in this record, “No change” is stored in “Deformation type”, and “No” is stored in “Exception”. Therefore, the morpheme “adopted” is left unchanged from the accent “saiyo” registered in the morpheme table.

次に、形態素『情報』が注目される。この形態素『情報』は、形態素『採用』との合成語『採用情報』において『後方』に位置している。そこで、図4のアクセント結合規則23のテーブルにおける「見出し語」が『情報』であって、且つ「位置」が『後方』であるレコードが参照される。なお、このレコードの「結合先行詞」は『任意』であるから、形態素『採用』の品詞を調べる処理は不要である。このレコードには、「結合有無」が『有』が、「変形型」には『1型化』が、そして、「例外」には『無』が、それぞれ格納されていることが分かる。従って、形態素『委員会』では、形態素テーブルに登録されていたアクセント『ジョーホー』に対して1番目のモーラにアクセントが与えられて、アクセント情報が『ジョ’ーホー』に変更される。   Next, the morpheme “information” is noted. This morpheme “information” is positioned “backward” in the compound word “recruitment information” with the morpheme “recruitment”. Therefore, a record in which “headword” in the table of the accent combination rule 23 in FIG. 4 is “information” and “position” is “backward” is referred to. Since the “joint predecessor” in this record is “arbitrary”, it is not necessary to check the part of speech of the morpheme “adopted”. In this record, “Yes / No” is stored for “Availability”, “Type 1” is stored for “Deformation type”, and “None” is stored for “Exception”. Therefore, in the morpheme “committee”, an accent is given to the first mora for the accent “Joe Ho” registered in the morpheme table, and the accent information is changed to “Joho Ho”.

なお、形態素『採用』についての参照レコードと形態素『情報』についての参照レコードとにおける「結合有無」は、どちらも『有』で一致しており相反していない。従って、合成語『採用情報』のアクセント情報として、形態素『採用』についての無変形のアクセント『サイヨー』と、形態素『情報』についての1型に変更されたアクセント『ジョ’ーホー』とを結合させた『サイヨージョ’ーホー』が作成される。   Note that the “combination presence / absence” in the reference record for the morpheme “adopted” and the reference record for the morpheme “information” are both “Yes” and are not in conflict. Therefore, as the accent information of the composite word “recruitment information”, the unmodified accent “Saiyo” for the morpheme “recruitment” and the accent “Jojoho” changed to the type 1 for the morpheme “information” are combined. "Saiyo Jo Ho" is created.

以上の処理の結果、日本語テキスト『採用情報掲載』のアクセント情報『サイヨージョ’ーホー ケーサイ』が作成されて出力される。   As a result of the above processing, the accent information “Saiyo Jo'-Hockey” of the Japanese text “Recruitment Information” is created and output.

[3]『議員定数削減』の場合
次に、日本語テキスト『議員定数削減』がアクセント付与装置10に入力された場合について説明する。
[3] Case of “Reduction of Parliamentary member constant” Next, a case where the Japanese text “Reduced member of the congressional member” is input to the accent assignment apparatus 10 will be described.

S101のテキスト入力処理によって、日本語テキスト『議員定数削減』が取得されると、次に、S102において形態素解析処理が行われる。この処理によって形態素列『議員|定数|削減』という解析結果が得られたとする。   When the Japanese text “representative constant reduction” is acquired by the text input process of S101, next, a morphological analysis process is performed in S102. It is assumed that an analysis result of the morpheme string “Members | constant | reduction” is obtained by this processing.

次に、S103の形態素修正処理が行われるが、形態素列『議員|定数|削減』に対しては形態素列の修正は行われない。
次に、形態素列『議員|定数|削減』に対してS104の検証フレーズ生成処理が行われる。この処理により、『議員』と『定数』との間、及び『定数』と『削減』との間の各々に文字『の』が挿入されて、検証フレーズ『議員の定数削減』及び『議員定数の削減』が生成される。
Next, although the morpheme correction process of S103 is performed, the morpheme string is not corrected for the morpheme string “Members | constant | reduction”.
Next, the verification phrase generation process of S104 is performed for the morpheme string “Meeting member | constant | reduction”. By this process, the characters “no” are inserted between “Members” and “Constant”, and between “Constant” and “Reduction”, respectively, and the verification phrases “Members constant reduction” and “Members constant” are inserted. Reduction ”is generated.

次に、以上のようにして得られた2つの検証フレーズについて、S105の用例検索処理が行われる。ここでは、上記の2つの検証フレーズの文章コーパス22における出現回数についての用例検索処理による計数結果が、それぞれ下記の通りであったものとする。
・『議員の定数削減』………497回
・『議員定数の削減』………398回
Next, the example search process of S105 is performed for the two verification phrases obtained as described above. Here, it is assumed that the count results of the example search process for the number of appearances of the two verification phrases in the sentence corpus 22 are as follows.
・ “Reduction of the number of members of the Diet” ……… 497 times ・ “Reduction of the number of members of the Diet” ……… 398 times

次に、形態素列『議員|定数|削減』に対し、S106のアクセント結合判定処理が行われる。
この処理では、まず、上記の2つの検証フレーズのうちで、S105の用例検索処理による計数値が最大値497回である検証フレーズ『議員の定数削減』が、前述した判定対象検証フレーズとして注目される。
Next, the accent combination determination process of S106 is performed on the morpheme string “Meeting member | constant | reduction”.
In this process, first, among the above two verification phrases, the verification phrase “representative constant reduction” having a maximum value of 497 times in the example search process of S105 is noted as the above-described determination target verification phrase. The

そして、判定対象検証フレーズ『議員の定数削減』と、他の検証フレーズ『議員定数の削減』との出現回数の比が、所定の判定閾値よりも大きいか否かが判定される。ここで、判定閾値が例えば3に設定されていると、判定対象検証フレーズと他の検証フレーズとの出現回数の比は、497/398、すなわち約1.2であるので、判定閾値よりも小さいとの判定が下される。   Then, it is determined whether or not the ratio of the number of appearances of the determination target verification phrase “representative constant reduction” and the other verification phrase “representative constant reduction” is greater than a predetermined determination threshold. Here, if the determination threshold value is set to 3, for example, the ratio of the number of appearances of the determination target verification phrase and other verification phrases is 497/398, that is, about 1.2, and therefore is smaller than the determination threshold value. Is determined.

すると、この場合には、形態素列『議員|定数|削減』における最後尾の境界である、形態素『定数』と『削減』との境界において、アクセント結合現象が生じるか否かが、形態素『定数』と『削減』とについてのアクセント結合規則23に従って判定される。この判定は前述した例と同様に行われる。   Then, in this case, whether or not an accent coupling phenomenon occurs at the boundary between the morpheme “constant” and “reduction”, which is the last boundary in the morpheme sequence “legal member | constant | reduction”, is the morpheme “constant”. ] And “reduction” are determined according to the accent combination rule 23. This determination is performed in the same manner as in the example described above.

形態素『定数』と『削減』とについてのアクセント結合規則23は図4のテーブルには明記されていない。そこで、ここでは、合成語『定数削減』においてはアクセント結合現象が生じないとの判定が、アクセント結合規則23に基づいて下されたものとする。   The accent combining rule 23 for the morpheme “constant” and “reduction” is not specified in the table of FIG. Therefore, here, it is assumed that the determination that the accent combining phenomenon does not occur in the composite word “constant reduction” is made based on the accent combining rule 23.

ところで、形態素列『議員|定数|削減』は、隣接している形態素の境界が2つのみであって、且つ、そのうちの一方である形態素『定数』と『削減』との境界の位置においては、上述した処理によってアクセント結合現象が生じないとの判定が下されている。従って、この場合には、形態素列『議員|定数|削減』における他方の境界である、形態素『議員』と『定数』との境界の位置においてはアクセント結合現象が生じるとの判定が下される。   By the way, the morpheme string “Members | constant | reduction” has only two borders between adjacent morphemes, and at the boundary between the morpheme “constant” and “reduction”. Therefore, it is determined that the accent coupling phenomenon does not occur by the above-described processing. Therefore, in this case, it is determined that an accent coupling phenomenon occurs at the position of the boundary between the morpheme “Meetors” and “Constant”, which is the other boundary in the morpheme string “Members | constant | reduction”. .

以上までの処理の結果、形態素列『議員|定数|削減』に対するアクセント結合判定処理の最終結果として、『議員定数/削減』が得られる。この後に行われるS107の判定処理の判定結果はNoとなり、S108の結果出力処理が行われる。   As a result of the above processing, the “decision member constant / reduction” is obtained as the final result of the accent combination determination process for the morpheme string “representative | constant | reduction”. The determination result of the determination process of S107 performed after this is No, and the result output process of S108 is performed.

結果出力処理では、まず、形態素『議員』、『定数』、及び『削減』の各々についてのアクセントを、単語辞書21の形態素テーブルから取得する処理が行われる。ここでは、これらの形態素の各々についてのアクセントの取得結果が、下記の通りであったものとする。
・『議員』………『ギ’イン』
・『定数』………『テース’ー』
・『削減』………『サクゲン』
In the result output process, first, the process of acquiring the accents for each of the morphemes “Meetors”, “Constant”, and “Reduction” from the morpheme table of the word dictionary 21 is performed. Here, it is assumed that the accent acquisition results for each of these morphemes are as follows.
・ "Representative" ......... "Gui-in"
・ "Constant" ......... "Teth"
・ "Reduction" ... "Sakugen"

ここで、前述したアクセント結合判定処理の最終結果として、形態素『議員』と『定数』との境界ではアクセント結合現象が発生すると判定されている。そこで、形態素『議員』と『定数』との個々のアクセントを、アクセント結合規則23に従って変化させる処理が前述した例と同様に行われる。   Here, as a final result of the above-described accent combination determination process, it is determined that an accent combination phenomenon occurs at the boundary between the morpheme “Meetors” and “Constants”. Therefore, the process of changing the individual accents of the morpheme “Meetors” and “Constants” according to the accent combining rule 23 is performed in the same manner as in the above-described example.

形態素『議員』と『定数』とについてのアクセント結合規則23は図4のテーブルには明記されていない。そこで、ここでは、アクセント結合規則23の汎用的な規則を表す「未知語」のルールに基づくことによって、形態素『議員』のアクセントが『ギイン』に変更され、形態素『定数』のアクセントが『テ’ースー』に変更されたものとする。従って、合成語『議員定数』のアクセント情報として、形態素『議員』の変更後のアクセント『ギイン』と、形態素『定数』についての変更後のアクセント『テ’ースー』とを結合させた『ギインテ’ースー』が作成される。   The accent combining rule 23 for the morphemes “Meetors” and “Constants” is not specified in the table of FIG. Therefore, here, the accent of the morpheme “constant” is changed to “Guin” and the accent of the morpheme “constant” is changed to “tein” based on the “unknown word” rule representing the general rule of the accent combination rule 23. It is assumed that it has been changed to 'Susu'. Therefore, as the accent information for the compound word “Meeting member constant”, “Guinte” is a combination of the accented “Guin” after the change of the morpheme “Meeting member” and the accented “Te'su” after the change of the morpheme “Constant”. Is created.

以上の処理の結果、日本語テキスト『議員定数削減』のアクセント情報『ギインテ’ースー サクゲン』が作成されて出力される。   As a result of the above processing, the accent information “Guinte 'Sue Sakugen” of the Japanese text “Reduction of the Diet member constant” is created and output.

[4]『国際サッカー連盟』の場合
次に、日本語テキスト『国際サッカー連盟』がアクセント付与装置10に入力された場合について説明する。
[4] Case of “International Football Federation” Next, the case where the Japanese text “International Football Federation” is input to the accenting device 10 will be described.

S101のテキスト入力処理によって、日本語テキスト『国際サッカー連盟』が取得されると、次に、S102において形態素解析処理が行われる。この処理によって形態素列『国際|サッカー|連盟』という解析結果が得られたとする。   When the Japanese text “International Soccer Federation” is acquired by the text input process of S101, next, a morphological analysis process is performed in S102. It is assumed that the analysis result of the morpheme string “international | soccer | federation” is obtained by this processing.

次に、S103の形態素修正処理が行われるが、形態素列『国際|サッカー|連盟』に対しては形態素列の修正は行われない。
次に、形態素列『国際|サッカー|連盟』に対してS104の検証フレーズ生成処理が行われる。この処理により、『国際』と『サッカー』との間、及び『サッカー』と『連盟』との間の各々に文字『の』が挿入されて、検証フレーズ『国際のサッカー連盟』及び『国際サッカーの連盟』が生成される。
Next, although the morpheme correction process of S103 is performed, the morpheme string is not corrected for the morpheme string “international | soccer | federation”.
Next, the verification phrase generation process of S104 is performed on the morpheme string “international | soccer | federation”. By this process, the characters “no” are inserted between “international” and “soccer” and between “soccer” and “federation”, respectively, and the verification phrases “international soccer federation” and “international soccer” The Federation of ”is generated.

次に、以上のようにして得られた2つの検証フレーズについて、S105の用例検索処理が行われる。ここでは、上記の2つの検証フレーズの文章コーパス22における出現回数についての用例検索処理による計数結果が、それぞれ下記の通りであったものとする。
・『国際のサッカー連盟』………0回
・『国際サッカーの連盟』………0回
Next, the example search process of S105 is performed for the two verification phrases obtained as described above. Here, it is assumed that the count results of the example search process for the number of appearances of the two verification phrases in the sentence corpus 22 are as follows.
・ “International Football Federation” ……… 0 times ・ “International Football Federation” ……… 0 times

次に、形態素列『国際|サッカー|連盟』に対し、S106のアクセント結合判定処理が行われる。ここで、検証フレーズ生成処理により生成された検証フレーズの各々についての文章コーパス22における出現回数は、全てゼロである。従って、この場合には、形態素列における『国際|サッカー|連盟』における形態素の全ての境界、すなわち、『国際』と『サッカー』との間、及び『サッカー』と『連盟』との間との両方において、アクセント結合現象が生じるとの判定が下される。   Next, the accent combination determination process of S106 is performed on the morpheme string “international | soccer | federation”. Here, the number of appearances in the sentence corpus 22 for each of the verification phrases generated by the verification phrase generation process is all zero. Therefore, in this case, all boundaries of morphemes in “international | soccer | federation” in the morpheme sequence, ie, between “international” and “soccer”, and between “soccer” and “federation” In both cases, it is determined that an accent coupling phenomenon occurs.

この結果、形態素列『国際|サッカー|連盟』に対するアクセント結合判定処理の最終結果として、形態素間に非結合が存在しない『国際サッカー連盟』が得られる。この後に行われるS107の判定処理の判定結果はNoとなり、S108の結果出力処理が行われる。   As a result, the final result of the accent combination determination process for the morpheme string “international | soccer | federation” is the “international soccer federation” in which there is no non-bond between the morphemes. The determination result of the determination process of S107 performed after this is No, and the result output process of S108 is performed.

結果出力処理では、まず、形態素『国際』、『サッカー』、及び『連盟』の各々についてのアクセントを、単語辞書21の形態素テーブルから取得する処理が行われる。ここでは、これらの形態素の各々についてのアクセントの取得結果が、下記の通りであったものとする。
・『国際』………『コクサイ』
・『サッカー』………『サ’ッカー』
・『連盟』………『レンメー』
In the result output process, first, a process of acquiring accents for each of the morphemes “international”, “soccer”, and “federation” from the morpheme table of the word dictionary 21 is performed. Here, it is assumed that the accent acquisition results for each of these morphemes are as follows.
・ "International" ......... "Kokusai"
・ "Soccer" ......... "Sucker"
・ "Alliance" ......... "Renme"

ここで、前述したアクセント結合判定処理の最終結果として、形態素『国際』と『サッカー』との境界、及び、形態素『サッカー』と『連盟』との境界の両方でアクセント結合現象が発生すると判定されている。そこで、形態素『国際』、『サッカー』、及び『連盟』の個々のアクセントを、アクセント結合規則23に従って前の形態素から後ろの形態素へ順番に変化させる処理が前述した例と同様に行われる。   Here, as a final result of the above-described accent combination determination process, it is determined that an accent combination phenomenon occurs at both the boundary between the morpheme “international” and “soccer” and the boundary between the morpheme “soccer” and “federation”. ing. Therefore, the process of changing the individual accents of the morphemes “international”, “soccer”, and “federation” in order from the previous morpheme to the subsequent morpheme according to the accent combination rule 23 is performed in the same manner as in the above-described example.

形態素『国際』、『サッカー』、及び『連盟』についてのアクセント結合規則23は図4のテーブルには明記されていない。そこで、ここでは、アクセント結合規則23に基づくことによって、形態素『国際』のアクセントは『コクサイ』のまま変更されず、形態素『サッカー』が『サ’ッカー』に変更され、結合後のアクセントは「コクサイサ’ッカー」となる。さらに『連盟』との結合において、「コクサイサ’ッカー」が平板化され「コクサイサッカー」となり、「レンメー」のアクセントが『レ’ンメー』に変更される。従って、合成語『国際サッカー連盟』のアクセント情報として、『コクサイサッカーレ’ンメー』が作成される。   The accent combining rules 23 for the morphemes “international”, “soccer”, and “federation” are not specified in the table of FIG. Therefore, here, based on the accent combining rule 23, the accent of the morpheme “international” is not changed to “Kokusai”, the morpheme “soccer” is changed to “sucker”, and the combined accent is “ It becomes "Kokusaisa 'Ker". Furthermore, in the connection with the “Federation”, the “Kokusaisa-Ker” is flattened to become “Kokusai Soccer”, and the accent of “Renme” is changed to “Lemme”. Therefore, “Kokusai soccer label” is created as the accent information of the composite word “International Soccer Federation”.

以上の処理の結果、日本語テキスト『国際サッカー連盟』のアクセント情報『コクサイサッカーレ’ンメー』が作成されて出力される。   As a result of the above processing, the accent information “Kokusai soccer label” of the Japanese text “International Soccer Federation” is created and output.

以上のように、図1のアクセント付与装置10は、日本語テキストを構成する各形態素間の意味の切れ目を、文章コーパス22の用例を用いて推定することによって、複数の形態素からなる日本語テキストを2つの形態素からなる合成語にまで落とし込む。アクセント付与装置10は、このようにして、3単語以上からなる日本語テキストでもアクセント結合現象の適切な解析を可能にしている。   As described above, the accent assigning apparatus 10 in FIG. 1 estimates Japanese language texts composed of a plurality of morphemes by estimating the meaning breaks between the morphemes constituting the Japanese text using the example of the sentence corpus 22. Into a compound word consisting of two morphemes. In this way, the accent assigning apparatus 10 enables an appropriate analysis of the accent combining phenomenon even in Japanese text consisting of three or more words.

なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
日本語テキストの入力を受け付けるテキスト入力部と、
前記受け付けられた日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を出力する形態素解析部と、
前記形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、前記形態素列について複数種類の検証フレーズを生成する検証フレーズ生成部と、
前記生成された検証フレーズが、文章コーパス中に現れる出現回数を計数する用例検索部と、
前記形態素列における前記検証フレーズ生成部による文字「の」の挿入位置に隣接している2つの形態素を結合させて得られる合成語のアクセントが該2つの形態素の各々についてのものから変化するアクセント結合現象が生じるか否かを、前記複数種類の検証フレーズ毎の前記出現回数に基づいて判定するアクセント結合判定部と、
前記形態素列を構成している前記複数の形態素の各々についてのアクセント情報を、前記アクセント結合判定部での判定結果に基づいて変更して、前記受け付けられた日本語テキストについてのアクセントを作成して出力する結果出力部と、
を備えることを特徴とするアクセント付与装置。
(付記2)
前記アクセント結合判定部は、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものではない場合には、前記出現回数が最大である検証フレーズにおける文字「の」挿入位置においてはアクセント結合現象が生じないとの判定を下すことを特徴とする付記1に記載のアクセント付与装置。
(付記3)
前記アクセント結合判定部は、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものである場合には、該最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする付記1又は2に記載のアクセント付与装置。
(付記4)
前記アクセント結合判定部は、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれかにおいて所定の判定閾値よりも小さい場合には、前記形態素列における前記境界のうち最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする付記1から3のうちのいずれか一項に記載のアクセント付与装置。
(付記5)
前記アクセント結合判定部は、前記複数種類の検証フレーズの各々についての前記出現回数が全てゼロである場合には、前記形態素列における前記境界の位置の全てにおいてアクセント結合現象が生じるとの判定を下すことを特徴とする付記1から4のうちのいずれか一項に記載のアクセント判定装置。
(付記6)
前記アクセント結合判定部は、前記形態素列における前記境界が2つのみの場合であって、且つ、そのうちの一方の位置においてはアクセント結合現象が生じないとの判定を下した場合には、そのうちの他方の位置においてはアクセント結合現象が生じるとの判定を下すことを特徴とする付記1から5のうちのいずれか一項に記載のアクセント付与装置。
(付記7)
前記形態素列における前記境界に、該境界の位置においてアクセント結合現象が生じるか否かの判定が下されていないものが残っている場合には、前記検証フレーズ生成部は、前記残っている境界のいずれか1つに文字「の」を挿入することによって前記形態素列について複数種類の検証フレーズを新たに生成し、
前記用例検索部は、前記新たに生成された検証フレーズについて前記出現回数を計数し、
前記アクセント結合判定部は、前記新たに生成された検証フレーズについての出現回数に基づいて、前記残っている境界の位置においてアクセント結合現象が生じるか否かの判定を行う、
ことを特徴とする付記1から6のうちのいずれか一項に記載のアクセント付与装置。
(付記8)
前記検証フレーズ生成部は、前記複数種類の検証フレーズを新たに生成するときには、前記形態素列におけるアクセント結合現象が生じないとの判定が既に下されている境界の位置において該形態素列を2つに分割し、分割された2つの形態素列の各々について、前記検証フレーズを新たに生成することを特徴とする付記7に記載のアクセント付与装置。
(付記9)
前記形態素解析部が出力した形態素列を構成している複数の形態素のうちに、単体では語彙的な意味をなしておらず、他の形態素と共に用いられる形態素が含まれていた場合に、該形態素と該他の形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、該形態素列の修正を行う形態素修正部を更に備え、
前記検証フレーズ生成部は、前記形態素修正部が修正した形態素列について前記検証フレーズを生成する、
ことを特徴とする付記1から8のうちのいずれか一項に記載のアクセント付与装置。
(付記10)
前記形態素修正部は、前記形態素解析部が出力した形態素列を構成している複数の形態素に接辞である形態素が含まれていた場合には、該接辞である形態素と該複数の形態素のうちの該接辞についての語幹である形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、該形態素列の修正を行うことを特徴とする付記9に記載のアクセント付与装置。
(付記11)
入力された日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を生成し、
前記生成された形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、前記生成された形態素列について複数種類の検証フレーズを生成し、
前記生成された複数種類の検証フレーズが、文章コーパス中に現れる出現回数を計数し、
前記複数種類の検証フレーズを生成したときに挿入した文字「の」についての前記生成された形態素列における挿入位置に隣接している2つの形態素を結合させて得られる合成語のアクセントが該2つの形態素の各々についてのものから変化するアクセント結合現象が生じるか否かを、前記複数種類の検証フレーズ毎の前記出現回数に基づいて判定し、
前記生成された形態素列を構成している前記複数の形態素の各々についてのアクセント情報を、前記アクセント結合現象が生じるか否かの判定結果に基づいて変更して、前記入力された日本語テキストについてのアクセントを作成して出力する、
ことを特徴とするアクセント付与方法。
(付記12)
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記生成された形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものではない場合には、前記出現回数が最大である検証フレーズにおける文字「の」挿入位置においてはアクセント結合現象が生じないとの判定を下すことを特徴とする付記11に記載のアクセント付与方法。
(付記13)
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記生成された形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものである場合には、該最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする付記11又は12に記載のアクセント付与方法。
(付記14)
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれかにおいて所定の判定閾値よりも小さい場合には、前記生成された形態素列における前記境界のうち最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする付記11から13のうちのいずれか一項に記載のアクセント付与方法。
(付記15)
前記生成された形態素列を構成している複数の形態素のうちに、単体では語彙的な意味をなしておらず、他の形態素と共に用いられる形態素が含まれていた場合に、該形態素と該他の形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、前記生成された形態素列の修正を行い、
前記複数種類の検証フレーズの生成では、前記修正された形態素列について前記複数種類の検証フレーズを生成する、
ことを特徴とする付記11から14のうちのいずれか一項に記載のアクセント付与方法。
(付記16)
入力された日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を生成し、
前記生成された形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、前記生成された形態素列について複数種類の検証フレーズを生成し、
前記生成された複数種類の検証フレーズが、文章コーパス中に現れる出現回数を計数し、
前記複数種類の検証フレーズを生成したときに挿入した文字「の」についての前記生成された形態素列における挿入位置に隣接している2つの形態素を結合させて得られる合成語のアクセントが該2つの形態素の各々についてのものから変化するアクセント結合現象が生じるか否かを、前記複数種類の検証フレーズ毎の前記出現回数に基づいて判定し、
前記生成された形態素列を構成している前記複数の形態素の各々についてのアクセント情報を、前記アクセント結合現象が生じるか否かの判定結果に基づいて変更して、前記入力された日本語テキストについてのアクセントを作成して出力する、
処理をコンピュータに実行させるプログラム。
(付記17)
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記生成された形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものではない場合には、前記出現回数が最大である検証フレーズにおける文字「の」挿入位置においてはアクセント結合現象が生じないとの判定を下すことを特徴とする付記16に記載のプログラム。
(付記18)
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記生成された形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものである場合には、該最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする付記16又は17に記載のプログラム。
(付記19)
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれかにおいて所定の判定閾値よりも小さい場合には、前記生成された形態素列における前記境界のうち最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする付記16から18のうちのいずれか一項に記載のプログラム。
(付記20)
前記生成された形態素列を構成している複数の形態素のうちに、単体では語彙的な意味をなしておらず、他の形態素と共に用いられる形態素が含まれていた場合に、該形態素と該他の形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、前記生成された形態素列の修正を行う処理を更に前記コンピュータに実行させ、
前記複数種類の検証フレーズの生成では、前記修正された形態素列について前記複数種類の検証フレーズを生成する、
ことを特徴とする付記16から19のうちのいずれか一項に記載のプログラム。
In addition, the following additional remarks are disclosed regarding the embodiment described above.
(Appendix 1)
A text input unit that accepts Japanese text input;
A morpheme analyzer that performs morpheme analysis on the accepted Japanese text and outputs a morpheme sequence divided into a plurality of morphemes;
A verification phrase generation unit that generates a plurality of types of verification phrases for the morpheme sequence by inserting the character “no” into any one of the adjacent morpheme boundaries in the morpheme sequence;
An example search unit that counts the number of times the generated verification phrase appears in a sentence corpus;
Accent combination in which the accent of a synthesized word obtained by combining two morphemes adjacent to the insertion position of the character “NO” by the verification phrase generation unit in the morpheme string changes from that of each of the two morphemes An accent combination determination unit that determines whether or not a phenomenon occurs based on the number of appearances for each of the plurality of types of verification phrases;
The accent information for each of the plurality of morphemes constituting the morpheme string is changed based on a determination result in the accent combination determination unit, and an accent for the accepted Japanese text is created. A result output section to output;
An accent applying apparatus comprising:
(Appendix 2)
The accent combination determination unit is configured so that a ratio of the number of appearances with respect to other verification phrases for a verification phrase having the maximum number of appearances among the plurality of types of verification phrases is predetermined in any of the other verification phrases. And the verification phrase having the maximum number of appearances is generated by inserting the character “NO” at the last boundary among the boundaries in the morpheme string. If there is no accent, the accent applying apparatus according to appendix 1, wherein it is determined that an accent combining phenomenon does not occur at the insertion position of the character “NO” in the verification phrase having the maximum number of appearances.
(Appendix 3)
The accent combination determination unit is configured so that a ratio of the number of appearances with respect to other verification phrases for a verification phrase having the maximum number of appearances among the plurality of types of verification phrases is predetermined in any of the other verification phrases. And the verification phrase having the maximum number of appearances is generated by inserting the character “NO” at the last boundary among the boundaries in the morpheme string. In some cases, whether or not an accent combining phenomenon occurs at the position of the rearmost boundary is determined according to a rule for combining accents for two morphemes adjacent to the rearmost boundary. 3. The accent imparting apparatus according to appendix 1 or 2, characterized in that determination is made.
(Appendix 4)
The accent combination determination unit is configured such that a ratio of the number of appearances with respect to other verification phrases for a verification phrase having the maximum number of appearances among the plurality of types of verification phrases is predetermined in any of the other verification phrases. If it is smaller than the determination threshold, whether or not an accent coupling phenomenon occurs at the position of the rearmost boundary among the boundaries in the morpheme string is adjacent to the rearmost boundary prepared in advance. The accent imparting apparatus according to any one of appendices 1 to 3, wherein the determination is performed according to a rule for combining accents for two morphemes.
(Appendix 5)
The accent combination determination unit determines that an accent combination phenomenon occurs in all of the boundary positions in the morpheme sequence when the number of appearances for each of the plurality of types of verification phrases is all zero. The accent determination apparatus according to any one of supplementary notes 1 to 4, characterized in that:
(Appendix 6)
The accent combination determination unit is a case where the boundary in the morpheme sequence is only two and when it is determined that an accent combination phenomenon does not occur at one of the boundaries, 6. The accent applying apparatus according to any one of appendices 1 to 5, wherein it is determined that an accent coupling phenomenon occurs at the other position.
(Appendix 7)
If the boundary in the morpheme sequence is left undecided as to whether an accent coupling phenomenon occurs at the position of the boundary, the verification phrase generation unit A plurality of types of verification phrases are newly generated for the morpheme string by inserting the character “no” into any one of the above,
The example search unit counts the number of appearances for the newly generated verification phrase,
The accent coupling determination unit determines whether an accent coupling phenomenon occurs at the remaining boundary position based on the number of appearances for the newly generated verification phrase.
The accent imparting device according to any one of appendices 1 to 6, characterized in that:
(Appendix 8)
When the verification phrase generation unit newly generates the plurality of types of verification phrases, the verification phrase generation unit divides the morpheme string into two at a boundary position where it is already determined that the accent combination phenomenon does not occur in the morpheme string. The accent assignment apparatus according to appendix 7, wherein the verification phrase is newly generated for each of the two divided morpheme strings.
(Appendix 9)
Among the plurality of morphemes constituting the morpheme sequence output by the morpheme analysis unit, if the morpheme used in combination with other morphemes is not included in a single lexical meaning, A morpheme correction unit that corrects the morpheme string by treating a composite word obtained by combining the morpheme and the other morpheme as one morpheme,
The verification phrase generation unit generates the verification phrase for a morpheme sequence corrected by the morpheme correction unit.
The accent imparting apparatus according to any one of appendices 1 to 8, characterized in that:
(Appendix 10)
When the morpheme that is an affix is included in a plurality of morphemes that constitute the morpheme sequence output by the morpheme analysis unit, the morpheme correction unit includes the morpheme that is the affix and the morpheme The accent assignment apparatus according to appendix 9, wherein the morpheme string is corrected by treating a composite word obtained by combining a morpheme that is a stem of the affix as a single morpheme.
(Appendix 11)
Perform morpheme analysis on the input Japanese text to generate a morpheme string divided into multiple morphemes,
Generating a plurality of types of verification phrases for the generated morpheme sequence by inserting the character “no” into any one of the adjacent morpheme boundaries in the generated morpheme sequence;
Counting the number of times the generated multiple types of verification phrases appear in the sentence corpus,
An accent of a composite word obtained by combining two morphemes adjacent to the insertion position in the generated morpheme string for the character “no” inserted when the plural types of verification phrases are generated is the two Whether or not an accent coupling phenomenon that changes from that of each morpheme is determined based on the number of appearances for each of the plurality of types of verification phrases,
The accent information for each of the plurality of morphemes constituting the generated morpheme sequence is changed based on the determination result of whether or not the accent coupling phenomenon occurs, and the input Japanese text Create and output accents for
An accenting method characterized by that.
(Appendix 12)
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. In any of the phrases, the verification phrase that is greater than the predetermined determination threshold and has the maximum number of appearances is the character “NO” at the rearmost boundary among the boundaries in the generated morpheme sequence. If it is not generated by inserting the character, it is determined that the accent combining phenomenon does not occur at the insertion position of the character “NO” in the verification phrase having the maximum number of appearances. The accent imparting method described in 1.
(Appendix 13)
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. In any of the phrases, the verification phrase that is greater than the predetermined determination threshold and has the maximum number of appearances is the character “NO” at the rearmost boundary among the boundaries in the generated morpheme sequence. In the case where the accent combining phenomenon occurs at the position of the rearmost boundary, whether two adjacent to the rearmost boundary are prepared. 13. The method of adding accents according to appendix 11 or 12, wherein the determination is made according to the rules for combining accents for morphemes.
(Appendix 14)
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. If any of the phrases is smaller than a predetermined determination threshold, whether or not an accent coupling phenomenon occurs at the position of the rearmost boundary among the boundaries in the generated morpheme sequence is prepared in advance. 14. The accent assignment method according to any one of appendices 11 to 13, wherein the determination is performed according to a rule for combining accents for two morphemes adjacent to the rearmost boundary.
(Appendix 15)
Among the plurality of morphemes constituting the generated morpheme sequence, if the morpheme used in combination with other morphemes is not included in the lexical meaning alone, the morpheme and the other morphemes are included. The generated morpheme sequence is corrected by treating a composite word obtained by combining with a morpheme as a single morpheme,
In the generation of the plurality of types of verification phrases, the plurality of types of verification phrases are generated for the modified morpheme sequence.
The accent imparting method according to any one of appendices 11 to 14, characterized in that:
(Appendix 16)
Perform morpheme analysis on the input Japanese text to generate a morpheme string divided into multiple morphemes,
Generating a plurality of types of verification phrases for the generated morpheme sequence by inserting the character “no” into any one of the adjacent morpheme boundaries in the generated morpheme sequence;
Counting the number of times the generated multiple types of verification phrases appear in the sentence corpus,
An accent of a composite word obtained by combining two morphemes adjacent to the insertion position in the generated morpheme string for the character “no” inserted when the plural types of verification phrases are generated is the two Whether or not an accent coupling phenomenon that changes from that of each morpheme is determined based on the number of appearances for each of the plurality of types of verification phrases,
The accent information for each of the plurality of morphemes constituting the generated morpheme sequence is changed based on the determination result of whether or not the accent coupling phenomenon occurs, and the input Japanese text Create and output accents for
A program that causes a computer to execute processing.
(Appendix 17)
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. In any of the phrases, the verification phrase that is greater than the predetermined determination threshold and has the maximum number of appearances is the character “NO” at the rearmost boundary among the boundaries in the generated morpheme sequence. If it is not generated by inserting a character, it is determined that an accent combining phenomenon does not occur at the insertion position of the character “NO” in the verification phrase having the maximum number of appearances. The program described in.
(Appendix 18)
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. In any of the phrases, the verification phrase that is greater than the predetermined determination threshold and has the maximum number of appearances is the character “NO” at the rearmost boundary among the boundaries in the generated morpheme sequence. In the case where the accent combining phenomenon occurs at the position of the rearmost boundary, whether two adjacent to the rearmost boundary are prepared. 18. The program according to appendix 16 or 17, characterized in that the determination is made according to an accent combining rule for morphemes.
(Appendix 19)
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. If any of the phrases is smaller than a predetermined determination threshold, whether or not an accent coupling phenomenon occurs at the position of the rearmost boundary among the boundaries in the generated morpheme sequence is prepared in advance. 19. The program according to any one of appendices 16 to 18, wherein the program is determined according to a rule of accent combination for two morphemes adjacent to the rearmost boundary.
(Appendix 20)
Among the plurality of morphemes constituting the generated morpheme sequence, if the morpheme used in combination with other morphemes is not included in the lexical meaning alone, the morpheme and the other morphemes are included. The computer further executes a process for correcting the generated morpheme sequence by treating a composite word obtained by combining the morpheme of
In the generation of the plurality of types of verification phrases, the plurality of types of verification phrases are generated for the modified morpheme sequence.
20. The program according to any one of supplementary notes 16 to 19, characterized by:

10 アクセント付与装置
11 テキスト入力部
12 形態素解析部
13 形態素修正部
14 検証フレーズ生成部
15 用例検索部
16 アクセント結合判定部
17 結果出力部
21 単語辞書
22 文章コーパス
23 アクセント結合規則
30 コンピュータ
31 MPU
32 ROM
33 RAM
34 ハードディスク装置
35 入力装置
36 出力装置
37 インタフェース装置
38 記録媒体駆動装置
39 バスライン
40 可搬型記録媒体
DESCRIPTION OF SYMBOLS 10 Accent assignment apparatus 11 Text input part 12 Morphological analysis part 13 Morphological correction part 14 Verification phrase generation part 15 Example search part 16 Accent combination determination part 17 Result output part 21 Word dictionary 22 Sentence corpus 23 Accent combination rule 30 Computer 31 MPU
32 ROM
33 RAM
34 hard disk device 35 input device 36 output device 37 interface device 38 recording medium drive device 39 bus line 40 portable recording medium

Claims (11)

日本語テキストの入力を受け付けるテキスト入力部と、
前記受け付けられた日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を出力する形態素解析部と、
前記形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、前記形態素列について複数種類の検証フレーズを生成する検証フレーズ生成部と、
前記生成された検証フレーズが、文章コーパス中に現れる出現回数を計数する用例検索部と、
前記形態素列における前記検証フレーズ生成部による文字「の」の挿入位置に隣接している2つの形態素を結合させて得られる合成語のアクセントが該2つの形態素の各々についてのものから変化するアクセント結合現象が生じるか否かを、前記複数種類の検証フレーズ毎の前記出現回数に基づいて判定するアクセント結合判定部と、
形態素を単独で発音するときのアクセントを表すアクセント情報を該形態素毎に示した形態素テーブルと、前記アクセント結合現象が前記合成語に生じた場合に該合成語を構成している形態素に生じるアクセントの変化の態様を表す情報を該形態素毎に示したアクセント結合規則テーブルとが記憶されている記憶部と、
前記形態素列を構成している前記複数の形態素の各々についてのアクセント情報を前記形態素テーブルから取得し該取得したアクセント情報のうちの前記アクセント結合判定部により前記アクセント結合現象が生じると判定された合成語を構成している形態素についてのアクセント情報を、前記結合規則テーブルに示されている該形態素についての前記アクセントの変化の態様を表す情報に従って変更して、前記受け付けられた日本語テキストについてのアクセントを作成して出力する結果出力部と、
を備え
前記アクセント結合判定部は、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものではない場合には、前記出現回数が最大である検証フレーズにおける文字「の」挿入位置においては前記アクセント結合現象が生じないとの判定を下す、
ことを特徴とするアクセント付与装置。
A text input unit that accepts Japanese text input;
A morpheme analyzer that performs morpheme analysis on the accepted Japanese text and outputs a morpheme sequence divided into a plurality of morphemes;
A verification phrase generation unit that generates a plurality of types of verification phrases for the morpheme sequence by inserting the character “no” into any one of the adjacent morpheme boundaries in the morpheme sequence;
An example search unit that counts the number of times the generated verification phrase appears in a sentence corpus;
Accent combination in which the accent of a synthesized word obtained by combining two morphemes adjacent to the insertion position of the character “NO” by the verification phrase generation unit in the morpheme string changes from that of each of the two morphemes An accent combination determination unit that determines whether or not a phenomenon occurs based on the number of appearances for each of the plurality of types of verification phrases;
A morpheme table showing accent information for each morpheme indicating accent information when the morpheme is pronounced alone, and an accent generated in the morpheme constituting the composite word when the accent combination phenomenon occurs in the composite word A storage unit in which an accent combination rule table indicating information indicating a mode of change for each morpheme is stored;
Accent information about each of the plurality of morphemes constituting the morpheme string is acquired from the morpheme table , and the accent combination determination unit of the acquired accent information is determined to cause the accent combination phenomenon. The accent information about the morpheme constituting the compound word is changed according to the information indicating the aspect of change of the accent for the morpheme shown in the combination rule table, and the received Japanese text A result output section for creating and outputting an accent;
Equipped with a,
The accent combination determination unit is configured so that a ratio of the number of appearances with respect to other verification phrases for a verification phrase having the maximum number of appearances among the plurality of types of verification phrases is predetermined in any of the other verification phrases. And the verification phrase having the maximum number of appearances is generated by inserting the character “NO” at the last boundary among the boundaries in the morpheme string. If not, a determination is made that the accent combining phenomenon does not occur at the insertion position of the character “no” in the verification phrase with the maximum number of appearances.
An accenting apparatus characterized by that.
前記アクセント結合判定部は、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものである場合には、該最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする請求項に記載のアクセント付与装置。 The accent combination determination unit is configured so that a ratio of the number of appearances with respect to other verification phrases for a verification phrase having the maximum number of appearances among the plurality of types of verification phrases is predetermined in any of the other verification phrases. And the verification phrase having the maximum number of appearances is generated by inserting the character “NO” at the last boundary among the boundaries in the morpheme string. In some cases, whether or not an accent combining phenomenon occurs at the position of the rearmost boundary is determined according to a rule for combining accents for two morphemes adjacent to the rearmost boundary. The accent applying apparatus according to claim 1 , wherein the accent applying apparatus is determined. 前記アクセント結合判定部は、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれかにおいて所定の判定閾値よりも小さい場合には、前記形態素列における前記境界のうち最も後ろの境界の位置においてアクセント結合現象が生じるか否かを、予め用意されている、該最も後ろの境界に隣接している2つの形態素についてのアクセントの結合の規則に従って判定することを特徴とする請求項1又は2に記載のアクセント付与装置。 The accent combination determination unit is configured such that a ratio of the number of appearances with respect to other verification phrases for a verification phrase having the maximum number of appearances among the plurality of types of verification phrases is predetermined in any of the other verification phrases. If it is smaller than the determination threshold, whether or not an accent coupling phenomenon occurs at the position of the rearmost boundary among the boundaries in the morpheme string is adjacent to the rearmost boundary prepared in advance. accentuation device according to claim 1 or 2, wherein the determining in accordance with two binding rules accents for morphemes are. 前記アクセント結合判定部は、前記複数種類の検証フレーズの各々についての前記出現回数が全てゼロである場合には、前記形態素列における前記境界の位置の全てにおいてアクセント結合現象が生じるとの判定を下すことを特徴とする請求項1からのうちのいずれか一項に記載のアクセント判定装置。 The accent combination determination unit determines that an accent combination phenomenon occurs in all of the boundary positions in the morpheme sequence when the number of appearances for each of the plurality of types of verification phrases is all zero. The accent determination apparatus according to any one of claims 1 to 3 , wherein 前記アクセント結合判定部は、前記形態素列における前記境界が2つのみの場合であって、且つ、そのうちの一方の位置においてはアクセント結合現象が生じないとの判定を下した場合には、そのうちの他方の位置においてはアクセント結合現象が生じるとの判定を下すことを特徴とする請求項1からのうちのいずれか一項に記載のアクセント付与装置。 The accent combination determination unit is a case where the boundary in the morpheme sequence is only two and when it is determined that an accent combination phenomenon does not occur at one of the boundaries, accentuation device according to claim 1, characterized in that to make the determination that the accent coupling phenomenon occurs in any one of the four in the other position. 前記形態素列における前記境界に、該境界の位置においてアクセント結合現象が生じるか否かの判定が下されていないものが残っている場合には、前記検証フレーズ生成部は、前記残っている境界のいずれか1つに文字「の」を挿入することによって前記形態素列について複数種類の検証フレーズを新たに生成し、
前記用例検索部は、前記新たに生成された検証フレーズについて前記出現回数を計数し、
前記アクセント結合判定部は、前記新たに生成された検証フレーズについての出現回数に基づいて、前記残っている境界の位置においてアクセント結合現象が生じるか否かの判定を行う、
ことを特徴とする請求項1からのうちのいずれか一項に記載のアクセント付与装置。
If the boundary in the morpheme sequence is left undecided as to whether an accent coupling phenomenon occurs at the position of the boundary, the verification phrase generation unit A plurality of types of verification phrases are newly generated for the morpheme string by inserting the character “no” into any one of the above,
The example search unit counts the number of appearances for the newly generated verification phrase,
The accent coupling determination unit determines whether an accent coupling phenomenon occurs at the remaining boundary position based on the number of appearances for the newly generated verification phrase.
The accent imparting apparatus according to any one of claims 1 to 5 , wherein
前記検証フレーズ生成部は、前記複数種類の検証フレーズを新たに生成するときには、前記形態素列におけるアクセント結合現象が生じないとの判定が既に下されている境界の位置において該形態素列を2つに分割し、分割された2つの形態素列の各々について、前記検証フレーズを新たに生成することを特徴とする請求項に記載のアクセント付与装置。 When the verification phrase generation unit newly generates the plurality of types of verification phrases, the verification phrase generation unit divides the morpheme string into two at a boundary position where it is already determined that the accent combination phenomenon does not occur in the morpheme string. The accent assignment apparatus according to claim 6 , wherein the verification phrase is newly generated for each of the two divided morpheme strings. 前記形態素解析部が出力した形態素列を構成している複数の形態素のうちに、単体では語彙的な意味をなしておらず、他の形態素と共に用いられる形態素が含まれていた場合に、該形態素と該他の形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、該形態素列の修正を行う形態素修正部を更に備え、
前記検証フレーズ生成部は、前記形態素修正部が修正した形態素列について前記検証フレーズを生成する、
ことを特徴とする請求項1からのうちのいずれか一項に記載のアクセント付与装置。
Among the plurality of morphemes constituting the morpheme sequence output by the morpheme analysis unit, if the morpheme used in combination with other morphemes is not included in a single lexical meaning, A morpheme correction unit that corrects the morpheme string by treating a composite word obtained by combining the morpheme and the other morpheme as one morpheme,
The verification phrase generation unit generates the verification phrase for a morpheme sequence corrected by the morpheme correction unit.
The accent imparting device according to any one of claims 1 to 7 , wherein
前記形態素修正部は、前記形態素解析部が出力した形態素列を構成している複数の形態素に接辞である形態素が含まれていた場合には、該接辞である形態素と該複数の形態素のうちの該接辞についての語幹である形態素とを結合させて得られる合成語を1つの形態素として扱うようにすることによって、該形態素列の修正を行うことを特徴とする請求項に記載のアクセント付与装置。 When the morpheme that is an affix is included in a plurality of morphemes that constitute the morpheme sequence output by the morpheme analysis unit, the morpheme correction unit includes the morpheme that is the affix and the morpheme 9. The accent assigning apparatus according to claim 8 , wherein the morpheme string is corrected by treating a composite word obtained by combining a morpheme which is a stem of the affix as a single morpheme. . アクセント付与装置が行うアクセント付与方法であって、
前記アクセント付与装置が備えている形態素解析部が、入力された日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を生成し、
前記アクセント付与装置が備えている検証フレーズ生成部が、前記生成された形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、前記生成された形態素列について複数種類の検証フレーズを生成し、
前記アクセント付与装置が備えている用例検索部が、前記生成された複数種類の検証フレーズが、文章コーパス中に現れる出現回数を計数し、
前記アクセント付与装置が備えているアクセント結合判定部が、前記複数種類の検証フレーズを生成したときに挿入した文字「の」についての前記生成された形態素列における挿入位置に隣接している2つの形態素を結合させて得られる合成語のアクセントが該2つの形態素の各々についてのものから変化するアクセント結合現象が生じるか否かを、前記複数種類の検証フレーズ毎の前記出現回数に基づいて判定し、
前記アクセント付与装置が備えている結果出力部が、前記生成された形態素列を構成している前記複数の形態素の各々についてのアクセント情報を形態素テーブルから取得し該取得したアクセント情報のうちの前記アクセント結合現象が生じると判定された合成語を構成している形態素についてのアクセント情報を、結合規則テーブルに示されている該形態素についてのアクセントの変化の態様を表す情報に従って変更して、前記入力された日本語テキストについてのアクセントを作成して出力
前記形態素テーブルは、形態素を単独で発音するときのアクセントを表すアクセント情報を該形態素毎に示したテーブルであって前記アクセント付与装置が備えている記憶部に記憶されており、
前記結合規則テーブルは、前記アクセント結合現象が前記合成語に生じた場合に該合成語を構成している形態素に生じるアクセントの変化の態様を表す情報を該形態素毎に示したテーブルであって前記アクセント付与装置が備えている記憶部に記憶されており、
前記アクセント結合判定部による前記判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものではない場合には、前記出現回数が最大である検証フレーズにおける文字「の」挿入位置においては前記アクセント結合現象が生じないとの判定を下す、
ことを特徴とするアクセント付与方法。
An accenting method performed by an accenting apparatus,
The morpheme analysis unit provided in the accent assigning device generates a morpheme sequence divided into a plurality of morphemes by performing morpheme analysis on the input Japanese text,
The generated morpheme string is generated by the verification phrase generator included in the accent assigning device inserting the character “no” into any one of the adjacent morpheme boundaries in the generated morpheme string. Generate multiple verification phrases for
The example search unit provided in the accenting device counts the number of appearances of the generated plurality of types of verification phrases that appear in a sentence corpus,
Two morphemes adjacent to the insertion position in the generated morpheme string for the character “no” inserted when the accent combination determination unit provided in the accent assignment device generates the plurality of types of verification phrases Is determined based on the number of appearances for each of the plurality of types of verification phrases, whether or not an accent combining phenomenon occurs in which the accent of the synthesized word obtained by combining the two is different from that of each of the two morphemes,
The result output unit provided in the accent assigning apparatus acquires accent information for each of the plurality of morphemes constituting the generated morpheme string from the morpheme table , and the accent information among the acquired accent information The input is performed by changing the accent information for the morpheme constituting the compound word determined to cause the accent combining phenomenon according to the information indicating the aspect of the accent change for the morpheme shown in the combining rule table. and outputs to create accents for has been Japanese text,
The morpheme table is a table showing accent information representing an accent when a morpheme is singly generated for each morpheme, and is stored in a storage unit provided in the accent assigning device,
The combination rule table is a table that shows information for each morpheme that represents an aspect of an accent change that occurs in a morpheme constituting the compound word when the accent combining phenomenon occurs in the compound word. Stored in the storage unit of the accenting device,
In the determination by the accent combination determination unit, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is any of the other verification phrases. And the verification phrase having the maximum number of appearances is generated by inserting the character “NO” at the last boundary among the boundaries in the morpheme string. If it is not, it is determined that the accent combining phenomenon does not occur at the insertion position of the character “of” in the verification phrase having the maximum number of appearances.
An accenting method characterized by that.
入力された日本語テキストに対して形態素解析を行って複数の形態素に分割した形態素列を生成し、
前記生成された形態素列において隣接している形態素の境界のいずれか1つに文字「の」を挿入することによって、前記生成された形態素列について複数種類の検証フレーズを生成し、
前記生成された複数種類の検証フレーズが、文章コーパス中に現れる出現回数を計数し、
前記複数種類の検証フレーズを生成したときに挿入した文字「の」についての前記生成された形態素列における挿入位置に隣接している2つの形態素を結合させて得られる合成語のアクセントが該2つの形態素の各々についてのものから変化するアクセント結合現象が生じるか否かを、前記複数種類の検証フレーズ毎の前記出現回数に基づいて判定し、
前記生成された形態素列を構成している前記複数の形態素の各々についてのアクセント情報を形態素テーブルから取得し該取得したアクセント情報のうちの前記アクセント結合現象が生じると判定された合成語を構成している形態素についてのアクセント情報を、結合規則テーブルに示されている該形態素についてのアクセントの変化の態様を表す情報に従って変更して、前記入力された日本語テキストについてのアクセントを作成して出力する、
処理をコンピュータに実行させ
前記形態素テーブルは、形態素を単独で発音するときのアクセントを表すアクセント情報を該形態素毎に示したテーブルであって前記コンピュータが備えている記憶部に記憶させておき、
前記結合規則テーブルは、前記アクセント結合現象が前記合成語に生じた場合に該合成語を構成している形態素に生じるアクセントの変化の態様を表す情報を該形態素毎に示したテーブルであって前記コンピュータが備えている記憶部に記憶させておき、
前記アクセント結合現象が生じるか否かの判定では、前記複数種類の検証フレーズのうちで前記出現回数が最大である検証フレーズについての、その他の検証フレーズに対する前記出現回数の比が、該その他の検証フレーズのいずれにおいても所定の判定閾値よりも大きい場合であって、且つ、該出現回数が最大である検証フレーズが、前記形態素列における前記境界のうち最も後ろの境界に文字「の」を挿入して生成されたものではない場合には、前記出現回数が最大である検証フレーズにおける文字「の」挿入位置においては前記アクセント結合現象が生じないとの判定を下す、
プログラム。
Perform morpheme analysis on the input Japanese text to generate a morpheme string divided into multiple morphemes,
Generating a plurality of types of verification phrases for the generated morpheme sequence by inserting the character “no” into any one of the adjacent morpheme boundaries in the generated morpheme sequence;
Counting the number of times the generated multiple types of verification phrases appear in the sentence corpus,
An accent of a composite word obtained by combining two morphemes adjacent to the insertion position in the generated morpheme string for the character “no” inserted when the plural types of verification phrases are generated is the two Whether or not an accent coupling phenomenon that changes from that of each morpheme is determined based on the number of appearances for each of the plurality of types of verification phrases,
Accent information for each of the plurality of morphemes constituting the generated morpheme sequence is acquired from a morpheme table , and a composite word determined to cause the accent combining phenomenon in the acquired accent information is configured The accent information for the morpheme is changed in accordance with the information indicating the mode of change of the accent for the morpheme shown in the combination rule table, and the accent for the input Japanese text is created and output To
Let the computer execute the process ,
The morpheme table is a table showing accent information representing an accent when a morpheme is singly generated for each morpheme, and is stored in a storage unit provided in the computer,
The combination rule table is a table that shows information for each morpheme that represents an aspect of an accent change that occurs in a morpheme constituting the compound word when the accent combining phenomenon occurs in the compound word. Store it in the storage section of the computer,
In determining whether or not the accent coupling phenomenon occurs, the ratio of the number of appearances to the other verification phrases with respect to the verification phrase having the maximum number of appearances among the plurality of types of verification phrases is the other verification. In any of the phrases, the verification phrase having the maximum number of appearances is greater than a predetermined determination threshold, and the character “NO” is inserted at the last boundary among the boundaries in the morpheme string. If it is not generated in the verification phrase that the number of appearances is the maximum, it is determined that the accent combining phenomenon does not occur at the insertion position of the character “of” in the verification phrase.
program.
JP2012067213A 2012-03-23 2012-03-23 Accent imparting apparatus, accent imparting method, and program Active JP5906869B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012067213A JP5906869B2 (en) 2012-03-23 2012-03-23 Accent imparting apparatus, accent imparting method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012067213A JP5906869B2 (en) 2012-03-23 2012-03-23 Accent imparting apparatus, accent imparting method, and program

Publications (2)

Publication Number Publication Date
JP2013200605A JP2013200605A (en) 2013-10-03
JP5906869B2 true JP5906869B2 (en) 2016-04-20

Family

ID=49520835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012067213A Active JP5906869B2 (en) 2012-03-23 2012-03-23 Accent imparting apparatus, accent imparting method, and program

Country Status (1)

Country Link
JP (1) JP5906869B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4791984B2 (en) * 2007-02-27 2011-10-12 株式会社東芝 Apparatus, method and program for processing input voice
JP5181578B2 (en) * 2007-08-21 2013-04-10 富士通株式会社 Speech synthesis apparatus, speech synthesis method, and computer program
JP5094835B2 (en) * 2009-12-28 2012-12-12 ヤフー株式会社 Semantic attribute estimation apparatus, method and program

Also Published As

Publication number Publication date
JP2013200605A (en) 2013-10-03

Similar Documents

Publication Publication Date Title
Pasha et al. Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic.
JP4769031B2 (en) Method for creating language model, kana-kanji conversion method, apparatus, computer program, and computer-readable storage medium
JP7100747B2 (en) Training data generation method and equipment
Shahrour et al. Improving Arabic diacritization through syntactic analysis
JP5071373B2 (en) Language processing apparatus, language processing method, and language processing program
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
Vlachos et al. Detecting speculative language using syntactic dependencies and logistic regression
JP4001283B2 (en) Morphological analyzer and natural language processor
Seddah et al. Cross parser evaluation: a French Treebanks study
Nair et al. Sanskrit stemmer design: A literature perspective
WO2009113289A1 (en) New case generation device, new case generation method, and new case generation program
JP5906869B2 (en) Accent imparting apparatus, accent imparting method, and program
JP4476609B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
JP2011129006A (en) Semantic classification device, semantic classification method, and semantic classification program
JP2008077512A (en) Document analysis device, document analysis method and computer program
JP2009176148A (en) Unknown word determining system, method and program
JP5142395B2 (en) Related information extraction apparatus, method, program, and recording medium
JP2010191851A (en) Article feature word extraction device, article feature word extraction method and program
Walentynowicz et al. Tagger for polish computer mediated communication texts
KR102661819B1 (en) Methods for Understanding Context of Temporal Relations Based on Open-domain Information
Love Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160307

R150 Certificate of patent or registration of utility model

Ref document number: 5906869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150