CN109213992A - 词素分析装置和词素分析方法 - Google Patents

词素分析装置和词素分析方法 Download PDF

Info

Publication number
CN109213992A
CN109213992A CN201810686874.5A CN201810686874A CN109213992A CN 109213992 A CN109213992 A CN 109213992A CN 201810686874 A CN201810686874 A CN 201810686874A CN 109213992 A CN109213992 A CN 109213992A
Authority
CN
China
Prior art keywords
character string
analysis
dictionary
morphemic
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810686874.5A
Other languages
English (en)
Inventor
森田
森田一
岩仓友哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN109213992A publication Critical patent/CN109213992A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供词素分析装置和词素分析方法,用于提高词素分析的分析精度。词素分析装置具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。

Description

词素分析装置和词素分析方法
技术领域
本发明涉及词素分析装置和词素分析方法。
背景技术
近些年来,因特网上的信息飞跃性地增多,使用大数据的商务增加,因此希望高效地处理大数据。在如日语、中文或韩文的文档那样,是单词与单词间未被空格等的分隔文字分隔开来的表述的文档的情况下,为了计算单词的出现频度而进行词素分析。
词素分析是将文本分割为词素,对各词素赋予词性信息的处理。通过词素分析而得到的词素有时被作为单词进行处理。通过进行这种词素分析,确定文档中的单词间的关系和单词的词性,能够将文档中的文本分割为单词。然而,词素分析的处理负载较大,因此处理大量的文本需要较长的时间。
在词素分析中,从辞典中提取出与分析对象的字符串的表述部分一致的所有单词,进行使用作为列举出单词的候选(分析候选)的图表结构的点阵(lattice)的分析。
图1是表示点阵的示例的图。
在图1中,示出构建了针对作为分析对象的输入文=“被送来”的点阵的情况。在词素分析中,对所构建的点阵考虑上下文(前后的词素),确定正确的词素串。由此,“被送来”的词素分析结果成为“送ら(动词·未然形)|れて(接尾词)|きた(接尾词)”。点阵的构建的计算成本较大,比较耗费时间。
在词素分析中,已知不进行计算成本较大的点阵的构建,而通过使用图形匹配来实现高速化的方法(例如,参照非专利文献1)。已知将句子高速分割为2个以上的单词的单词分割装置(例如,参照专利文献1)。还已知得到精度较高的单词分割用辞典的辞典登记装置(例如,参照专利文献2)。
在先技术文献
专利文献
专利文献1:日本特开2014-106707号公报
专利文献2:日本特开2014-120007号公报
非专利文献
非专利文献1:Manabu Sassano,“Deterministic Word Segmentation UsingMaximum Matching with Fully Lexicalized Rules”,Proceedings of the 14thConference of the European Chapter of the Association for ComputationalLinguistics,pages 79–83,Gothenburg,Sweden,April 26-30 2014
然而,在非专利文献1所述的词素分析方法中,虽然能够通过图形匹配来高速地进行词素分析,然而存在有时输出错误的分析结果,分析精度较低的问题。
发明内容
本发明的一个方面的目的在于,提高词素分析的分析精度。
实施方式的词素分析程序使计算机执行如下的处理,该计算机具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果。
所述计算机针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果。
所述计算机针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵。
所述计算机使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
发明效果
根据实施方式,能够提高词素分析的分析精度。
附图说明
图1是表示点阵的示例的图。
图2是实施方式的词素分析装置的结构图。
图3是上下文独立辞典的示例。
图4是上下文依赖字符串和分析结果的示例。
图5是表示实施方式的词素分析处理的图。
图6是表示实施方式的词素分析处理的图。
图7是实施方式的上下文独立辞典生成处理的流程图。
图8是实施方式的词素分析处理的流程图。
图9是表示关于未分析的字符串及其前后的词素的点阵的图。
图10是表示关于未分析的字符串及其前后的词素的点阵的图。
图11是表示作为针对未分析的字符串的分析结果的词素串的图。
图12是表示作为针对未分析的字符串的分析结果的词素串的图。
图13是实施方式的词素分析处理的变形例的流程图。
图14是表示包含未分析的字符串的输入文的点阵的图。
图15是表示包含针对未分析的字符串的分析结果的输入文的词素串的图。
图16是信息处理装置的结构图。
标号说明
101:词素分析装置,201:辞典生成部,211:上下文独立辞典构建部,221:词素分析部,231:依赖性判定部,301:词素分析部,311:上下文独立字符串分析部,321:上下文依赖字符串分析部,322:点阵构建部,323:词素串选择部,401:存储部,411:语料库,421:上下文独立辞典,431:输入文,441:分析结果。
具体实施方式
以下,参照附图对实施方式进行说明。
首先说明使用非专利文献1所述的现有技术,进行词素分析的情况。在现有技术中,首先通过使用辞典的最长一致法,输出针对分析对象的句子的词素串,将错误输出的词素串中的与置换图形一致的词素串按照该置换图形置换为正确的词素串。
(基于现有技术的词素分析的第1例)
针对作为分析对象的输入文=“评价当然是非常好的”,基于最长一致法的词素分析的结果为“非常に|評判|が|いいわけ|だ”。在现有技术中,为了修正错误的分析结果,参照置换图形,修正一致的词素串。
这里,具有将“が|いいわけ|だ”修正为“が|いい|わけだ”的置换图形。这种情况下,“非常に|評判|が|いいわけ|だ”被修正为“非常に|評判|が|いい|わけだ”。这样,存在适当的置换图形的情况下,作为“评价当然是非常好的”的分析结果,可得到作为正确的分析结果的“非常に|評判|が|いい|わけだ”。
然而,不存在上述那样的适当的置换图形的情况下,词素串未被修正,因此作为针对“评价当然是非常好的”的词素分析的结果,得到作为错误的分析结果的“非常に|評判|が|いい|わけだ”。
(基于现有技术的词素分析的第2例)
针对输入文=“虽说人手不足然而是借口”,基于最长一致法的词素分析的结果为“人手|不足|と|言う|が|いいわけ|だ”。在现有技术中,为了修正错误的分析结果,参照置换图形,修正一致的词素串。
这里,不存在对“人手|不足|と|言う|が|いいわけ|だ”中包含的词素串进行修正的置换图形的情况下,不修正分析结果,而得到作为正确的分析结果的“人手|不足|と|言う|が|いいわけ|だ”。
这里,具有将“が|いいわけ|だ”修正为“が|いい|わけだ”的置换图形。这种情况下,“人手|不足|と|言う|が|いいわけ|だ”被修正为“人手|不足|と|言う|が|いい|わけだ”。通过使用置换图形,作为针对“虽说人手不足然而是借口”的词素分析的结果,得到作为错误的分析结果的“人手|不足|と|言う|が|いい|わけだ”。
这样,置换图形未成为考虑到上下文的规则,通过使用置换图形,有时会得到错误的分析结果。
图2是实施方式的词素分析装置的结构图。
词素分析装置101具有辞典生成部201、词素分析部301和存储部401。
辞典生成部201具有上下文独立辞典构建部211、词素分析部221和依赖性判定部231。
上下文独立辞典构建部211使用词素分析部221和依赖性判定部231的判定结果来生成上下文独立辞典421。
词素分析部221进行语料库411的词素分析。词素分析部221例如使用既存的词素分析方法进行词素分析。
依赖性判定部231判定字符串是否是基于上下文而词素分析的结果不同(依赖于上下文)的字符串。
在实施方式中,将基于上下文而词素分析的结果不同的字符串称作上下文依赖字符串。此外,在实施方式中,将基于上下文而词素分析的结果不变化的字符串称作上下文独立字符串。
词素分析部301具有上下文独立字符串分析部311和上下文依赖字符串分析部321。
上下文独立字符串分析部311使用上下文独立辞典421,通过图形匹配来进行输入文431的词素分析。通过上下文独立字符串分析部311来进行输入文431中的上下文独立字符串的词素分析。
上下文依赖字符串分析部321具有点阵构建部322和词素串选择部323。上下文依赖字符串分析部321进行输入文431中的未被上下文独立字符串分析部311分析的字符串(即,上下文依赖字符串)的词素分析。
点阵构建部322构建未分析的字符串的点阵。点阵(也称作单词点阵)是从词素分析辞典中提取出与分析对象的字符串的表述部分一致的所有单词,列举出单词的候选(分析结果的候选)的图表结构。
词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列(路径)。词素串选择部323例如使用Viterbi算法,选择使评价值为最小的路径。此外,词素串选择部323不限于使用Viterbi算法,还可以使用束搜索等的方法。
存储部401存储在词素分析装置101中使用的数据和程序等。存储部401存储语料库411、上下文独立辞典421、输入文431和分析结果441。此外,存储部401存储包含在点阵构建部322和词素分析部221构建点阵时使用的多个单词(词素)的词素分析辞典(未图示)。
语料库411是多个句子的集合。语料库411在由辞典生成部201生成上下文独立辞典421时使用。
上下文独立辞典421是表示上下文独立字符串和针对上下文独立字符串的词素分析的结果的信息。上下文独立辞典421是匹配辞典的一例。
输入文431是成为词素分析部301的词素分析的对象句子。输入文431是分析对象文本的一例。
分析结果441是输入文431的词素分析的结果。
图3是上下文独立辞典的例子。
上下文独立辞典421是表示作为基于上下文而词素分析的结果不变化的字符串的上下文独立字符串的信息。上下文独立辞典421包括字符串和词素串。上下文独立辞典421中对应地记录有字符串和词素串。
字符串是上下文独立字符串。
词素串是针对字符串的词素分析的结果。词素串是通过词素分析而对字符串进行分割后的多个词素的集合。在说明书和附图中,词素串的“|”表示词素间的边界。此外,词素串可以被附加表示各词素的词性和活用形的信息。
例如,图3的上下文独立辞典421作为字符串包含“晚上或休息日”,作为对应的词素串包含“晚上|或|休息日”。此外,图3的上下文独立辞典421作为字符串包含“瓦砾的山”,作为对应的词素串包含“瓦砾|的|山”。
“晚上或休息日”是基于“晚上或休息日”的前后的上下文而词素分析的结果不变化的字符串。即,针对“晚上或休息日”的词素分析的结果始终相同。若对“晚上或休息日”进行词素分析,则被分割为“晚上|或|休息日”那样。
关于“瓦砾的山”,词素分析的结果也同样始终被分割为“瓦砾|的|山”那样。
上述的上下文独立字符串无论字符串的前后的上下文如何而词素分析的结果都始终相同,因此仅凭上下文独立字符串就能够得到正确的分析结果。
此外,在上下文独立辞典421中,作为字符串可以登记型号、人名、表情文字、定型语句、英文单词或表示标签或换行的控制用记号等。型号、人名、表情文字、定型语句、英文单词和控制用记号是无论字符串的前后的上下文如何而词素分析的结果都始终相同的字符串。此外,上下文独立辞典421可以包含如下信息,该信息表示字符串是括弧时的针对括弧的词素分析的结果以及字符串是连续数值那样的数值表现时的针对数值表现的词素分析的结果。括弧和数值表现是无论字符串的前后的上下文如何而词素分析的结果都始终相同的字符串。
下面,说明作为基于上下文而词素分析的结果不同的字符串的上下文依赖字符串。
图4是上下文依赖字符串和分析结果的示例。
这里,作为上下文依赖字符串说明“因为知道的很清楚”、“休息日或晚上”以及“雪山”这3个例子。
(1)“因为知道的很清楚”
若针对“因为知道的很清楚”进行词素分析,则根据“因为知道的很清楚”的前后的上下文,被分割为“よく|知っている|から|だ”或“よく|知っている|から(体)”那样。
(2)“休息日或晚上”
在“休息日或晚上”之前附加有“本周的”情况下,若对“本周的休息日或晚上”进行词素分析,则被分割为“今週|の|休日|や|夜間”那样。
在“休息日或晚上”之前附加有”医院的规定”的情况下,若对“医院的规定休息日或晚上”进行词素分析,则被分割为“病院|の|定休日|や|夜間”那样。
(3)“雪山”
在“雪山”后附有“看”的情况下,若对“看雪山”进行词素分析,则被分割为“雪|の|山|を|見る”那样。
在“雪山”之前附有“大”且在“雪山”之后附有“形县”的情况下,若对“大雪山形县”进行词素分析,则被分割为“大雪|の|山形|県”那样。
上述那样的上下文依赖字符串基于字符串的前后的上下文而词素分析的结果不同,因此仅凭上下文依赖字符串难以得到正确的分析结果。
下面,示出实施方式的词素分析处理的例子。
图5是表示实施方式的词素分析处理的图。
在图5中,说明作为输入文431而进行“评价当然是非常好的”的词素分析的情况。此外,上下文独立辞典421包含字符串=“评价非常好”和词素串=“非常に|評判|が|いい”。
上下文独立字符串分析部311针对输入文=“评价当然是非常好的”,进行基于使用上下文独立辞典421的最长一致法的分析。图5中,输入文=“评价当然是非常好的”中的“评价非常好”与上下文独立辞典421的字符串一致。
因此,输入文=“评价当然是非常好的”中的“评价非常好”的词素分析的结果成为“非常に|評判|が|いい”。
下面,由上下文依赖字符串分析部321进行输入文中的未被上下文独立字符串分析部311分析的剩余的字符串的词素分析。即,上下文依赖字符串分析部321进行输入文=“评价当然是非常好的”中的未被上下文独立字符串分析部311分析的剩余的字符串=“わけだ”的词素分析。
点阵构建部322构建剩余的(未分析)的字符串=“わけだ”及其前后的分析完毕的字符串=“评价当然是非常好的”的点阵。
词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列(路径)。其结果是,未分析的字符串=“わけだ”的分析结果成为“わけだ”。
以上,输入文=“评价当然是非常好的”的词素分析的结果成为“非常に|評判|が|いい|わけだ”。
下面,说明包含在输入文中的字符串不包含在上下文独立辞典421中的情况。说明在上下文独立辞典421中使用的语料库的大小较小,在上下文独立辞典421中不包含字符串=“评价非常好”的情况。
图6是表示实施方式的词素分析处理的图。
图6中,与图5同样地说明作为输入文431进行“评价当然是非常好的”的词素分析的情况。此外,上下文独立辞典421不包含字符串=“评价非常好”。
上下文独立字符串分析部311针对输入文=“评价当然是非常好的”进行基于使用上下文独立辞典421的最长一致法的分析。图6中,输入文=“评价当然是非常好的”中的一致的字符串不包含在上下文独立辞典421中。
因此,输入文=“评价当然是非常好的”中的任意一个字符串也不被上下文独立字符串分析部311分析。
下面,由上下文依赖字符串分析部321进行输入文中的未被上下文独立字符串分析部311分析的剩余的字符串的词素分析。即,上下文依赖字符串分析部321进行输入文=“评价当然是非常好的”的词素分析。
点阵构建部322构建剩余(未分析)的字符串=“评价当然是非常好的”的点阵。
词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列(路径)。其结果是,未分析的字符串=“评价当然是非常好的”的分析结果成为“非常に|評判|が|いい|わけだ”。
以上,输入文=“评价当然是非常好的”的词素分析的结果成为“非常に|評判|が|いい|わけだ”。
这样,包含在输入文中的字符串不包含在上下文独立辞典421中的情况下,也能够正确地进行词素分析。
图7是实施方式的上下文独立辞典生成处理的流程图。
这里,语料库401包含句子si(i=0~N)。在实施方式中,如下示出句子s1,s2,s12,s15,s20,s30,s35
句子s1=“朝日新闻东京本社”向筑地派出所报告有人通过快递送来了两箱可疑的瓦楞板纸箱”。”
句子s2=“这是因为需要这样做。”
句子s12=“负责人回答了朝日新闻的采访。”
句子s15=“请注意身体和健康。”
句子s20=“朝日新闻东京本社位于大江户线筑地市场站前。”
句子s30=“本社具有决定权。”
句子s35=“发行方的日本公司负有责任。”
此外,句子si的i是句子si的句子ID。
步骤S501是对应于步骤S506的终端的循环的始端。变量i的初始值是0,执行循环的条件是i在N以下,每当循环结束时都使i增加1。
在步骤S502中,词素分析部221读出语料库401,进行包含在语料库401中的句子si的词素分析。例如,词素分析部221构建针对句子si的点阵,进行词素分析。将作为针对句子si的词素分析的结果的词素串设为词素串s’i。句子s1的词素分析的结果s’1成为s’1=“朝日|新闻|东京|本社|是|”|~”。此外,词素串s’i的i是词素串s’i的句子ID。
步骤S503是对应于步骤S505的终端的循环的始端。依赖性判定部231选择包含在词素串s’i中的连续的部分词素串中的1个未选择的连续的部分词素串。所选择的部分词素串n标记为n=(字符串p,词素串m,句子ID)。字符串p是连接词素串m的字符串,词素串m是构成所选择的部分词素串的词素串,句子ID是含有所选择的部分词素串n的词素串s’i或句子si的句子ID。例如,n=(朝日新闻,朝日|新闻,1)。此外,n=(新闻东京本社,新闻|东京|本社,1)。
在步骤S504中,依赖性判定部231按照每个字符串p,将词素串m和句子ID的排列分别保存在T[p].M,T[p].H中。例如,字符串p=“朝日新闻”的情况下,成为T[朝日新闻].M=[朝日|新闻],T[朝日新闻].H=[1、12,~]。此外,字符串p=“身体”的情况下,成为T[身体].M=[因为|是、身体(体)]、T[身体].H=[2、15,~]。即,字符串=“身体”的词素分析的结果示出“因为|是”或“身体(体)”。此外,T[身体].H=[2、15,~]表示字符串=“身体”包含在文s2,s15中。
步骤S505是对应于步骤S503的始端的循环的终端。在将包含于词素串s’i的连续的部分词素串全部选择完毕的情况下,控制进入步骤S506,在词素串s’i中存在未选择的连续的部分词素串的情况下,控制返回步骤S503。
步骤S506是对应于步骤S501的始端的循环的终端。在i大于N的情况下,处理进入步骤S507,i在N以下的情况下,i增加1,控制返回步骤S501。
步骤S507是对应于步骤S516的终端的循环的始端。依赖性判定部231选择排列T[p]的字符串p中的1个未选择的字符串p。以下,步骤S508~S515的字符串p是所选择的字符串p。
在步骤S508中,依赖性判定部231判定排列T[p].M的要素的数|T[p].M|是否为1。在排列T[p].M的要素的数是1的情况下,控制进入步骤S510,T[p].M的要素的数是1以外的情况下,控制进入步骤S509。例如,字符串p=“身体”的情况下,成为T[身体].M=[因为|是、身体(体)],因此为|T[p].M|=2,控制进入步骤S509。例如,字符串p=“东京本社是“快递”的情况下,是T[东京本社是“快递].M=[东京本社是“快递],因此|T[p].M|=1,控制进入步骤S510。在步骤S508中,检查字符串p的词素分析的结果是否具有多个,换言之字符串p的词素分析是否始终相同。
在步骤S509中,废弃字符串p。
在步骤S510中,依赖性判定部231判定排列T[p].H的要素的数|T[p].H|是否大于1。在排列T[p].H的要素的数大于1的情况下,控制进入步骤S512,T[p].H的要素的数在1以下的情况下,控制进入步骤S511。例如,字符串p=“东京本社是“快递”的情况下,是T[东京本社是“快递].H=[1],因此成为|T[p].H|=1,控制进入步骤S511。例如,字符串p=“朝日新闻东京本社”的情况下,是T[朝日新闻东京本社].H=[1、12、30],因此成为|T[p].H|=3,控制进入步骤S512。
在步骤S511中,废弃字符串p。
在步骤S512中,依赖性判定部231得到作为包含字符串p的句子集合的句子ID的Hp’。例如,字符串p=“本社”的情况下,包含“本社”的句子是文s1、s20、s30、s35,因此成为Hp’=1、20、30、35。
在步骤S513中,依赖性判定部231判定排列T[p].H与句子集合Hp’是否等同。在排列T[p].H与句子集合Hp’等同的情况下,控制进入步骤S515,在排列T[p].H与句子集合H’不等同的情况下,控制进入步骤S514。例如,字符串p=“本社”的情况下,排列T[p].H=[1、12、30],Hp’=1、20、30、35,排列T[p].H与Hp’不等同,因此控制进入步骤S514。在步骤S513中,检测是否为词素串的边界不同的情况。
在步骤S514中,废弃字符串p。
在步骤S515中,将字符串p和作为该字符串p的分析结果的词素串登记在上下文独立辞典421中。字符串p=“朝日新闻东京本社”的情况下,成为T[朝日新闻东京本社].M=[朝日|新闻|东京|本社],T[朝日新闻东京本社].H=[1、12、30],字符串p=“朝日新闻东京本社”和词素串=“朝日|新闻|东京|本社”被登记于上下文独立辞典421。
步骤S516是对应于步骤S507的始端的循环的终端。
图8是实施方式的词素分析处理的流程图。
在步骤S601中,上下文独立字符串分析部311读出输入文431。将包含在输入文431中的文字从前到后按顺序标记为c0,c1,~,cN。此外,变量i=0。在实施方式中,输入文=“通过快递给朝日新闻东京本社可疑的瓦楞板纸箱”。
在步骤S602中,上下文独立字符串分析部311进行输入文431与上下文独立辞典421的图形匹配,从输入文431中检测与包含在上下文独立辞典421中的字符串一致的字符串。具体地,上下文独立字符串分析部311检索上下文独立辞典421,检索与包含在上下文独立辞典421中的字符串匹配的以ci为起始的最长的字符串ci~cj。
例如,i=0时,c0~c7=“朝日新闻东京本社”。i=8时,不存在匹配的字符串。i=9时,c9~c11=“快递”。i=12时,不存在匹配的字符串。i=13时,c13~c22=“可疑的瓦楞板纸箱”。
在步骤S603中,上下文独立字符串分析部311检查与以ci为起始的字符串一致的字符串是否存在于上下文独立辞典421。在一致的字符串存在于上下文独立辞典421的情况下,控制进入步骤S605,一致的字符串不存在于上下文独立辞典421的情况下,控制进入步骤S604。
在步骤S604中,上下文独立字符串分析部311使变量i增加1。
在步骤S605中,上下文独立字符串分析部311将变量i设定为j+1。例如,i=0时,如在步骤S602中所述那样c0~c7=“朝日新闻东京本社”,由于j=7,因此i被设定为8(=7+1)。
在步骤S606中,上下文独立字符串分析部311将针对字符串ci~cj的分析结果作为分析结果441而保存于存储部401。例如,i=0时,将针对c0~c7=“朝日新闻东京本社”的分析结果=“朝日|新闻|东京|本社”作为分析结果441保存于存储部401。i=9时,将针对c9~c11=“快递”的分析结果=“|快递”作为分析结果441保存于存储部401。i=13时,将针对c13~c22=“で不番な段ボール箱”的分析结果=“で|不番な|段ボール|箱|”作为分析结果441保存于存储部401。
在步骤S607中,上下文独立字符串分析部311判定变量i是否大于N。在变量i大于N的情况下,控制进入步骤S608,变量i在N以下的情况下,控制返回步骤S602。
在步骤S608中,将输入文431中的在上下文独立字符串分析部311中未分析的字符串设为s0,s1,~,sM。此外,变量k=0。在实施方式中,输入文=“朝日新闻东京本社“被快递可疑的瓦楞板纸箱”中的“朝日新闻东京本社”、“快递”和“で不番な段ボール箱”已分析完毕,因此未分析的字符串为s0=“が”,s1=“便”。
在步骤S609中,点阵构建部322针对字符串sk和字符串sk的前后的分析完毕的词素,使用包含多个单词的辞典来构建点阵。图9示出字符串s0=“是”及其前后的分析完毕的词素的点阵。图10示出字符串s1=“便”及其前后的分析完毕的词素的点阵。
在步骤S610中,词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列(路径)。词素串选择部323例如使用Viterbi算法,选择使评价值为最小的路径。例如,针对字符串s0=“が”,作为分析结果选择“が(助词)”。图11示出字符串s0=“が”的分析结果和包含字符串s0的前后的分析完毕的词素的词素串。例如,针对字符串s1=“便”,作为分析结果选择“便(bin)”。图12示出字符串s1=“便”的分析结果和包含字符串s1的前后的分析完毕的词素的词素串。
在步骤S611中,词素串选择部323使变量k增加1。
在步骤S612中,词素串选择部323判定变量k是否大于M。在变量k大于M的情况下,控制进入步骤S613,变量k在M以下的情况下,控制返回步骤S609。
在步骤S613中,将针对字符串s1~sM的词素分析的结果作为分析结果441保存于存储部401。
如图8所示词素分析处理那样,针对未分析的字符串,可以不按照每个未分析的字符串进行词素分析,而是使用包含所有的未分析的字符串的输入文整体的点阵来进行词素分析。
图13是实施方式的词素分析处理的变形例的流程图。
与图8的词素分析处理同样地,输入文=“朝日新闻东京本社”被快递可疑的瓦楞板纸箱”。
步骤S1601~S1608的处理分别与图8的步骤S601~S607的处理同样,因此省略说明。
在步骤S1609中,点阵构建部322针对字符串sk和字符串sk的前后的分析完毕的词素,使用包含多个单词的辞典来构建点阵。
在步骤S1610中,词素串选择部323使变量k增加1。
在步骤S1611中,词素串选择部323判定变量k是否大于M。在变量k大于M的情况下,控制进入步骤S1612,变量k在M以下的情况下,控制返回步骤S1609。在实施方式中,变量k大于M的情况下,构建图14所示的包含未分析的字符串s0=“が”,s1=“便”的输入文整体的点阵。
在步骤S1612中,词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列(路径)。词素串选择部323例如使用Viterbi算法,选择使评价值为最小的路径。例如,针对字符串s0=“が”,作为分析结果选择“が(助词)”。例如,针对字符串s1=“便”,作为分析结果选择“便(bin)”。图15示出包含字符串s0=“が”,s1=“便”的分析结果的输入文整体的词素串。通过构建输入文整体的点阵来进行词素分析,由此相比如图9、10那样仅根据未分析的字符串及其前后的词素串的点阵进行词素分析的情况而言,能够提高精度。
在步骤S613中,将针对字符串s1~sM的词素分析的结果作为分析结果441保存于存储部401。
根据实施方式的词素分析装置,通过图形匹配进行词素分析,针对与图形匹配不一致的文本构建点阵来进行分析,从而能够在保持词素分析的精度的同时实现高速化。
根据实施方式的词素分析装置,仅针对与图形匹配不一致的文本构建点阵来进行词素分析,因此相比构建分析对象的文本整体的点阵进行词素分析的情况而言,能够降低计算成本。
图16是信息处理装置的结构图。
图2的词素分析装置101例如可使用图16所示那样的信息处理装置(计算机)10实现。
图16的信息处理装置包括中央处理单元(Central Processing Unit(CPU))1、存储器2、输入装置3、输出装置4、辅助存储装置5、介质驱动装置6和网络连接装置7。这些构成要素通过总线8而相互连接。
存储器2例如是只读存储器(Read Only Memory(ROM))、随机存取存储器(RandomAccess Memory(RAM))、闪存等的半导体存储器。存储器2储存用于词素分析处理的程序和数据。存储器2可用作存储部401。
CPU1(处理器)例如使用存储器2执路径序,从而作为上下文独立辞典构建部211、词素分析部221、依赖性判定部231、上下文独立字符串分析部311、点阵构建部322和词素串选择部323进行动作。
输入装置3例如是键盘指示设备等,在来自用户或操作者的指示和信息的输入时使用。输出装置4例如是显示装置、打印机、扬声器等,在向用户或操作者的询问和处理结果的输出时使用。处理结果可以是词素分析的结果。
辅助存储装置5例如是磁盘装置、光盘装置、光磁盘装置、磁带装置等。辅助存储装置5可以是硬盘驱动器或闪存。信息处理装置在辅助存储装置5中储存好程序和数据,可以将它们读取到存储器2中使用。辅助存储装置5可用作存储部401。
介质驱动装置6驱动便携型记录介质9,访问该记录内容。便携型记录介质9是存储设备、挠性磁盘、光盘、光磁盘等。便携型记录介质9可以是压缩盘只读存储器(CompactDisk Read Only Memory(CD-ROM))、数字通用光盘(Digital Versatile Disk(DVD))、通用串行总线(Universal Serial Bus(USB))存储器等。用户或操作者预先在该便携型记录介质9中储存好程序和数据,能够将它们读取到存储器2中使用。
这样,储存程序和数据的计算机可读取的记录介质是存储器2、辅助存储装置5和便携型记录介质9那样的物理的(非暂时性的)记录介质。
网络连接装置7是与局域网(Local Area Network(LAN))、因特网等的通信网络连接,进行伴随于通信的数据转换的通信接口。信息处理装置通过网络连接装置7从外部的装置接收程序和数据,能够将它们读取到存储器2中使用。
信息处理装置通过网络连接装置7从用户终端接收指示和信息,进行词素分析处理,还能够将处理结果发送给用户终端。
另外,信息处理装置无需包含图16的所有的构成要素,还可以根据用途和条件来受理一部分构成要素。例如,在不进行来自用户或操作者的指示和信息的输入的情况下,可以省略输入装置3,在不进行向用户或操作者的询问和处理结果的输出的情况下,可以省略输出装置4。在信息处理装置不访问便携型记录介质9或通信网络的情况下,可以省略介质驱动装置6或网络连接装置7。
关于以上的实施方式,还公开了以下的附记。
(附记1)
一种词素分析程序,其使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果:
针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,
针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,
使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
(附记2)
根据附记1所述的词素分析程序,其中,该词素分析程序还使所述计算机执行如下处理:进行所述多个句子的词素分析,包含在所述多个句子中的字符串的词素分析结果都相同的情况下,将所述字符串登记于所述匹配辞典。
(附记3)
根据附记1所述的词素分析程序,其中,该词素分析程序还使所述计算机执行如下处理:所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。
(附记4)
一种词素分析装置,其具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
(附记5)
根据附记4所述的词素分析装置,其中,该词素分析装置还具有辞典生成部,该辞典生成部进行所述多个句子的词素分析,包含在所述多个句子中的字符串的词素分析结果都相同的情况下,将所述字符串登记于所述匹配辞典。
(附记6)
根据附记4所述的词素分析装置,其中,所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,所述第1分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,所述第2分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。
(附记7)
一种词素分析方法,其具有由词素分析装置执行的如下处理,该词素分析装置具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该词素分析装置进行如下处理:针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
(附记8)
根据附记7所述的词素分析方法,其中,该词素分析方法还具有如下处理:进行所述多个句子的词素分析,包含在所述多个句子中的字符串的词素分析结果都相同的情况下,将所述字符串登记于所述匹配辞典。
(附记9)
根据附记7所述的词素分析方法,其中,该词素分析方法还具有如下处理:所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。

Claims (9)

1.一种计算机可读取的记录介质,其存储有词素分析程序,该词素分析程序使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:
针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,
针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,
使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
2.根据权利要求1所述的计算机可读取的记录介质,其中,
该词素分析程序还使所述计算机执行如下处理:
进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,将所述字符串登记于所述匹配辞典中。
3.根据权利要求1所述的计算机可读取的记录介质,其中,
所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,
该词素分析程序还使所述计算机执行如下处理:
针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,
针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。
4.一种词素分析装置,其具有:
存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;
第1分析部,其针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果;以及
第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
5.根据权利要求4所述的词素分析装置,其中,
该词素分析装置还具有辞典生成部,进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,辞典生成部将所述字符串登记于所述匹配辞典中。
6.根据权利要求4所述的词素分析装置,其中,
所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,
所述第1分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,
所述第2分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。
7.一种词素分析方法,包括由词素分析装置执行的如下处理,该词素分析装置具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:
针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果,
针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,
使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
8.根据权利要求7所述的词素分析方法,其中,
该词素分析方法还包括如下处理:进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,将所述字符串登记于所述匹配辞典中。
9.根据权利要求7所述的词素分析方法,其中,
所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,
该词素分析方法还包括如下处理:
针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,
针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。
CN201810686874.5A 2017-07-06 2018-06-28 词素分析装置和词素分析方法 Pending CN109213992A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-133065 2017-07-06
JP2017133065A JP2019016162A (ja) 2017-07-06 2017-07-06 形態素解析プログラム、形態素解析装置、および形態素解析方法

Publications (1)

Publication Number Publication Date
CN109213992A true CN109213992A (zh) 2019-01-15

Family

ID=64989858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810686874.5A Pending CN109213992A (zh) 2017-07-06 2018-06-28 词素分析装置和词素分析方法

Country Status (2)

Country Link
JP (1) JP2019016162A (zh)
CN (1) CN109213992A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5337232A (en) * 1989-03-02 1994-08-09 Nec Corporation Morpheme analysis device
JPH0844743A (ja) * 1994-05-23 1996-02-16 Oki Electric Ind Co Ltd 形態素解析装置
JPH11282837A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記録媒体
JP2002157244A (ja) * 2000-11-20 2002-05-31 Ricoh Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記憶媒体
EP1271341A2 (en) * 2001-06-30 2003-01-02 Unilever N.V. System for analysing textual data
JP2003256418A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字列処理装置、文字列処理プログラム、および記憶媒体
US20090228263A1 (en) * 2008-03-07 2009-09-10 Kabushiki Kaisha Toshiba Machine translating apparatus, method, and computer program product
CN102024157A (zh) * 2009-09-09 2011-04-20 索尼公司 信息处理装置、信息处理方法和信息处理程序
JP2013097534A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
CN104866496A (zh) * 2014-02-22 2015-08-26 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
JP2015194801A (ja) * 2014-03-31 2015-11-05 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP2016126498A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 形態素解析装置およびプログラム
JP2016177369A (ja) * 2015-03-18 2016-10-06 株式会社東芝 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311168A (ja) * 1999-04-28 2000-11-07 Nec Corp 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5337232A (en) * 1989-03-02 1994-08-09 Nec Corporation Morpheme analysis device
JPH0844743A (ja) * 1994-05-23 1996-02-16 Oki Electric Ind Co Ltd 形態素解析装置
JPH11282837A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記録媒体
JP2002157244A (ja) * 2000-11-20 2002-05-31 Ricoh Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記憶媒体
EP1271341A2 (en) * 2001-06-30 2003-01-02 Unilever N.V. System for analysing textual data
JP2003256418A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字列処理装置、文字列処理プログラム、および記憶媒体
US20090228263A1 (en) * 2008-03-07 2009-09-10 Kabushiki Kaisha Toshiba Machine translating apparatus, method, and computer program product
CN102024157A (zh) * 2009-09-09 2011-04-20 索尼公司 信息处理装置、信息处理方法和信息处理程序
JP2013097534A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
CN104866496A (zh) * 2014-02-22 2015-08-26 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
JP2015194801A (ja) * 2014-03-31 2015-11-05 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP2016126498A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 形態素解析装置およびプログラム
JP2016177369A (ja) * 2015-03-18 2016-10-06 株式会社東芝 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2019016162A (ja) 2019-01-31

Similar Documents

Publication Publication Date Title
Ghallab et al. Arabic sentiment analysis: A systematic literature review
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
JP5526199B2 (ja) 文書分類装置および文書分類処理プログラム
Hamed et al. Building a first language model for code-switch Arabic-English
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111695349A (zh) 文本匹配方法和文本匹配系统
CN110298041B (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Castro et al. Discriminating between Brazilian and European Portuguese national varieties on Twitter texts
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
WO2019064137A1 (en) EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE
JP2001229180A (ja) コンテンツ検索装置
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Kuncham et al. Statistical sandhi splitter for agglutinative languages
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
CN109213992A (zh) 词素分析装置和词素分析方法
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN110321404A (zh) 词汇学习的词条选取方法、装置、电子设备及存储介质
US20180033425A1 (en) Evaluation device and evaluation method
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190115

WD01 Invention patent application deemed withdrawn after publication