CN110235127B - 一种信息处理系统、信息处理方法、及计算机程序 - Google Patents

一种信息处理系统、信息处理方法、及计算机程序 Download PDF

Info

Publication number
CN110235127B
CN110235127B CN201780084260.3A CN201780084260A CN110235127B CN 110235127 B CN110235127 B CN 110235127B CN 201780084260 A CN201780084260 A CN 201780084260A CN 110235127 B CN110235127 B CN 110235127B
Authority
CN
China
Prior art keywords
word
dictionary
subject
subject word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780084260.3A
Other languages
English (en)
Other versions
CN110235127A (zh
Inventor
毛羽翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Publication of CN110235127A publication Critical patent/CN110235127A/zh
Application granted granted Critical
Publication of CN110235127B publication Critical patent/CN110235127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

词典制作装置(14)对通过自然语言处理装置(16)进行自然语言处理过程中所使用的词典进行记忆,该词典是存储有作为意义可单独成立的单词的主题词的词典。词典制作装置(14)从专利文献DB(12)中保存的专利文献字符串中,以至少除去已经存储在词典中的主题词之外的剩余的字符串作为短语,从中提取多个短语。在提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,词典制作装置(14)将该相同的字符串作为主题词进行提取。词典制作装置(14)将提取的主题词存储至词典。

Description

一种信息处理系统、信息处理方法、及计算机程序
技术领域
本发明涉及数据处理技术,特别是涉及一种信息处理系统、信息处理方法、及计算机程序。
背景技术
为了有效地从多个文献中检索与关键词匹配的文献,有时会预先对检索母群体的文献进行词素分析,并制作用于检索的索引数据。
在先技术文献
专利文献
专利文献1:日本特开2002-297589号公报
发明内容
发明所要解决的课题
在词素分析中,需要预先准备好记录有单词等的用于分析的词典。此词典要求遗漏的单词少,即全面性。特别是当检索对象为专利文献等技术性文档时,由于记载了很多的专用术语,很难依靠人力保证词典的全面性。
鉴于上述课题,本发明的主要目的在于提供一种有助于实现词典的技术,该词典适合用于词素分析等的自然语言处理。
用于解决课题的方案
为了解决上述课题,本发明的一个实施方式的信息处理系统,具备:词典记忆部,用于记忆计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典;短语提取部,用于从第1文档的字符串中以至少除去已经存储在词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;主题词提取部,用于当由短语提取部所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;以及词典更新部,用于将主题词提取部所提取的主题词存储在词典中。
本发明的其他实施方式是一种信息处理方法。该方法通过信息处理装置实现,该信息处理装置记忆有计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典,该信息处理装置执行以下步骤:短语提取步骤,从第1文档的字符串中以至少除去已经存储在词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;主题词提取步骤,当短语提取步骤所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;以及将主题词提取步骤所提取的主题词存储至词典的步骤。
另外,在程序、存储程序的存储介质等之间,还可以对以上构成要素的任意组合、本发明的表达做出变化,这些作为本发明的实施方式也同样有效。
发明效果
通过本发明,能够有助于实现适合词素分析等的自然语言处理的词典。
附图说明
[图1]为表示实施例的信息处理系统的结构示意图。
[图2]为表示图1词典制作装置的功能结构的框图。
[图3]为表示短语字符串的模式图。
[图4]图4的(a)、图4的(b)、图4的(c)为表示短语拆分的示例图。
[图5]为从短语拆分部输出的多个第2短语的示例图。
[图6]为主题词词典的示例图。
[图7]为附随词词典的示例图。
[图8]为表示图1中的自然语言处理装置的功能结构的框图。
[图9]为候补条目的示例图。
[图10]为单词提取处理对象的字符串的示例图。
[图11]为表示词典制作装置的运行的流程图。
[图12]为表示自然语言处理装置的运行的流程图。
具体实施方式
首先说明实施例的概要。本实施例的信息处理系统,有助于对用各种语言所描述的专利文献进行自然语言处理,例如词素分析。在计算机自然语言处理过程中所使用的词典,要求所收录的单词没有遗漏,即具备全面性,但是在专利文献中记载了很多的专用术语,因此依靠人力制作的词典很难提供足够的全面性。因此在实施例中,提出了一种自动制作全面性较佳的词典的第1技术,该词典以众多的专利文献为基础,在制作用于自然语言处理的词典的过程中没有人为参与。并且在实施例中,还提出了第2技术,即在使用通过第1技术自动制作的词典进行自然语言处理中,从专利文献中高精度地提取单词。
图1示出了实施例的信息处理系统10的结构。信息处理系统10具备专利文献DB12、词典制作装置14、以及自然语言处理装置16。图1中的各装置通过包括LAN、WAN、互联网在内的通信网18进行连接。
专利文献DB12是保存有多个专利文献数据,例如已经申请公开的多个专利文献数据的数据库服务器。词典制作装置14是制作在通过自然语言处理装置16进行词素分析处理过程中所使用的词典(以下称为“词素词典”)的信息处理装置,例如可以是计算机、服务器等。
自然语言处理装置16使用由词典制作装置14制作的词素词典,对专利文献DB12中所保存的专利文献数据进行词素分析处理。具体地,自然语言处理装置16从各专利文献数据中提取单词,并将包括从各专利文献中所提取的单词的列表在内的提取单词数据发送至指定的外部装置(未图示)。
作为提取单词数据的发送对象装置,可以是一种基于各专利文献的提取单词数据而制作用于专利检索的索引数据的装置。另外,也可以是一种使用其索引数据向未图示的用户终端提供专利检索服务的装置。此外,自然语言处理装置16还可以具备索引数据的制作功能和/或专利检索服务的提供功能,例如,可以作为一种专利检索装置进行安装。
此外,图1所示的各装置没有物理上的个数限制。例如,实施例的词典制作装置14的功能可以由多台装置分散执行,同样,词典制作装置14的功能也可以由多台装置分散执行。另外,实施例的词典制作装置14的功能和自然语言处理装置16的功能这两个功能也可以由1台信息处理装置统一提供。
图2为表示图1词典制作装置14的功能结构的框图。词典制作装置14具备控制部20、记忆部22以及通信部24。控制部20执行用于制作词素词典的各种数据的处理。记忆部22为通过控制部20更新或者参照的数据的记忆领域。通信部24根据指定的通信协议与外部装置进行通信。控制部20通过通信部24与专利文献DB12以及自然语言处理装置16进行数据交换。
本说明书的框图中所示的各方块,在硬件方面可以通过诸如计算机CPU、内存等元件或机械装置来实现,在软件方面可以通过计算机程序等来实现,在此,将对软硬件相配合而实现的功能框进行说明。因此,本领域的人员应该理解,可以根据硬件和软件的组合以各种形式实现这些功能块。例如,包括与控制部20中的各方块相对应的模块在内的计算机程序可以经由指定的存储介质或网络,安装在词典制作装置14的存储器中。然后,词典制作装置14的CPU通过适当地从存储器向主内存中读取并执行计算机程序,从而可以发挥与控制部20中的各方块相对应的功能。
记忆部22包括词典记忆部26。作为2种词素词典,词典记忆部26记忆主题词词典和附随词词典。主题词词典中存储有意义单独成立的单词(以下也称为“主题词”)。主题词通常为独立词(名词、动词、形容词等),包括诸如“食堂”,“专利”,“国家”等字符串。此外,实施例中的主题词限定在2个字符以上。
附随词词典中存储有用于附随于主题词的单词(以下也称为“附随词”)。附随词通常为附属词(助词、助动词)。例如,附随词包括“を”、“は”、“です”、“开发部”的“部”、“恳谈会”的“会”、“您的”的“的”。附随词可以是只有与主题词结合后文节才能够成立的单词。另外,附随词也可以是只有与主题词结合后意义才能够成立(换言之,意义能够确定)的单词。
控制部20包括短语读取部28、短语拆分部30、主题词提取部32、词典更新部34、附随词提取部36、词典输出部38。短语读取部28和短语拆分部30相互协作以作为短语提取部发挥功能,并从专利文献所记载的字符串中,将至少除去存储在主题词词典中的主题词之外的剩余字符串识别为短语,并提取多个短语。
短语读取部28从存储于专利文献DB12中的多个专利文献中,读取各专利文献中记载的字符串。短语读取部28反复进行将从字符串中的处理对象位置(初始状态中例如为开头字符)到指定的分隔符(句号、逗号、英文句号、英文逗号等)中的字符串作为第1短语进行提取处理,以及只把提取的短语作为处理对象位置进行推进的处理。
短语拆分部30参照主题词词典和附随词词典,从短语读取部28所提取的第1短语中,提取将该第1短语进行拆分的多个第2短语。短语拆分部30将至少除去已经存储在主题词词典中的主题词之外的剩余字符串识别为第2短语,并提取多个第2短语。实施例的短语拆分部30对已经存储于主题词词典中表示为主题词的短语、以及除去该主题词之外的剩余的字符串这两个字符串作为第2短语进行输出。
参照图3说明短语拆分部30的处理。图3的1个格表示1个字符。X为某个字符,b为存储于主题词词典的主题词的各字符,C为存储于附随词词典的附随词的字符。(1)短语拆分部30对下一个检索位置集合Ps(初始为开头位置0)进行保存。Ps为表示应判断是否为主题词的位置的信息集合。Ps的要素(即,表示位置的信息)可以是表示整个文档中的第几字节的信息,也可以是表示距第1短语的开头的距离(字符单位,字节单元等)的信息。图3中Ps={P0、P1}。
(2)短语拆分部30从Ps的最小位置(图3中的P0)开始检索下一个单词。在图3中,发现了主题词“bbbb”。(3)短语拆分部30将从P0开始、到找到的主题词为止的字符串(图3中的“XX”)作为短语进行输出,同时将找到的主题词“bbbb”作为短语输出。在图3的示例中,“XX”相当于第1短语中除去主题词之外的字符串。
当在上述(2)中找到1个以上的主题词时,对于所有主题词按顺序或同时执行以下的(4)(5)。(4)短语拆分部30将1个主题词(图3中的“bbbb”)结束之后的位置(在图3的示例中为字符“C”的位置,即P2)输入至Ps。(5)当紧接在上述(4)中的主题词之后的字符是附随词时,将该附随词结束之后的位置(在图3的示例中为字符“X”的位置,即P3)输入至Ps。(6)当在上述(2)中没有找到主题词时,将此时的处理位置(例如P0)到字符串的最后位置当作短语进行输出。(7)重复上述步骤(2)-(6)直到Ps为空。例如,当P0的处理完成时,PS={P1、P2、P3},并且在下一个(2)中,从P1开始检索下一个单词。
图4的(a)、图4的(b)和图4的(c)为短语拆分的示例。在这里,假设“日本”、“振兴”被记录在主题词词典中,“语”、“会”被记录在附随词词典中。图4的(a)示出了作为拆分前的原始数据的第1短语。由于“日本”和“振兴”存在于主题词词典,因此短语拆分部30将其识别为主题词,并作为第2短语输出。另外,短语拆分部30从“语”的位置进行检索,紧接其后的主题词的开头为“振”,因此,从“语”到“振”之前的字符串,即“语”作为第2短语输出。由于“语”为附随词,因此从“语”的位置和“振”的位置这两个位置开始寻找下一个主题词。同样,由于“会”是附随词,从“会”的位置和“日”的位置这两个位置开始寻找下一个主题词(图4的(b))。
由于在“会”之后的字符串中不存在已经在词典中收录的主题词,因此将检索位置到字符串的最后位置作为第2短语输出。图4的(c)示出了从短语拆分部30输出的5个第2短语。此外,当从相同位置检测到多个主题词时,短语拆分部30对所有检测到的单词进行上述处理。在这种情况下,提取包括部分重复的第2短语在内的多个第2短语。
返回到图2,当从短语拆分部30输出的多个第2短语中,指定个数以上的短语的开头部分存在相同的字符串时,主题词提取部32将该相同的字符串作为主题词的候补进行提取。具体地,主题词提取部32按字符编码的顺序对从短语拆分部30输出的多个第2短语进行排列。当多个第2短语的开头字符串相同时,主题词提取部32将该开头字符串作为主题词的候补进行输出。换言之,从多个第2短语的各个开头部分开始,当同一字符编码值为连续2个字符以上时,将该相同字符编码值所示的字符串当作主题词的候补。
图5为从短语拆分部30所输出的多个第2短语的示例。在图5的示例中,“日本”、“日本大学”、“日本料理”中的任何一个在预设阈值(在实施例中为5个)以上的短语开头部分重复出现。因此,主题词提取部32提取“日本”、“日本大学”、“日本料理”作为主题词候补。可以基于系统开发者的知识、使用信息处理系统10的实验等,将上述阈值设定为适当的值。例如,当强烈要求主题词的全面性时,可以将阈值增小,当在要求全面性的同时要求一定程度的准确性时,也可以将阈值缩大。
此外,短语拆分部30或主题词提取部32可以将表示多个第2短语的信息(这里称为“提取短语列表”)永久地记忆于记忆部22中。在提取短语列表中,可以存储有从多个词典制作时刻以及多个专利文献中所提取的第2短语。主题词提取部32将从短语拆分部30输出的第2短语追加至提取短语列表中,当收录于该提取短语列表中的指定个数以上的第2短语的开头部分存在相同的字符串时,可以将该相同的字符串作为主题词的候补进行提取。根据该实施方式,可以根据从多个词典制作时刻以及多个专利文献中提取的第2短语,更精确地提取主题词。
另外,短语拆分部30也可以阻止从第1短语中提取已经存储在主题词词典中的主题词作为第2短语。另外,在从短语拆分部30输出的多个第2短语中,主题词提取部32也可以将表示已经存储于主题词词典的主题词的第2短语排除在主题词提取处理对象的范围之外。
返回到图2,词典更新部34将主题词提取部32所提取的主题词存储在词典记忆部26的主题词词典中。若包括从主题词提取部32所提取的1个主题词候补中的开头部分在内的一部分不作为其他主题词成立时,词典更新部34将该候补确定为主题词并收录至主题词词典。当第1字符串以及包括该第1字符串在内的第2字符串这两个字符串作为主题词被提取时,词典更新部34将第1字符串存储于主题词词典的同时,阻止将第2字符串存储于主题词词典。换言之,在通过主题词提取部32所提取的主题词候补中,词典更新部34阻止将由多个主题词组合构成的候补(以下也称为“复合词”)存储于主题词词典。如上所述,为了提高检索的全面性,优先将相对较短的主题词存储在实施例的主题词词典中。
例如,当提取“日本”和“日本料理”两个词语作为候补对象时,词典更新部34将“日本”存储于主题词词典的同时,不将“日本料理”存储至主题词词典,而将其废弃,换言之对其忽视。此外,有望将“料理”收录至其他的主题词词典。另外,当“日本料理”已经存储在主题词词典中,并且“日本”作为主题词候补被重新提取时,词典更新部34将“日本”存储在主题词词典的同时,也可以将“日本料理”从主题词词典中删除。在这种情况下,针对后述的出现次数,可以将“日本料理”的出现次数作为“日本”的出现次数继承。
图6为主题词词典的示例。在实施例的主题词词典中,多个主题词和各主题词在多个文档中出现的次数彼此对应记录。在主题词的候补中,词典更新部34将未存储于主题词词典的候补(即新主题词的候补)新存储于主题词词典中,将其出现次数设定为1。另外,在主题词候补中,针对已经存储于主题词词典的候补(即过去已经检索出的主题词),词典更新部34阻止将其重复存储在主题词词典的同时,增加该主题词的出现次数。作为一种变形例,可以记录基于出现次数的出现频率的指标值,而不是记录出现次数本身。
返回到图2,附随词提取部36从多个专利文献所读取的字符串中,在除去存储于主题词词典的主题词之外的剩余字符串中,将字符数在指定阈值以下的字符串作为附随词的候补进行提取。换言之,在从多个专利文献所读取的字符串中,附随词提取部36将夹在2个主题词之间的字符串中的、长度为指定阈值以下的字符串作为附随词的候补进行提取。另外,若字符串最后的主题词之后的部分字符串的长度为指定阈值以下时,附随词提取部36将该部分字符串作为附随词的候补进行提取。实施例中的上述阈值为“2”。从专利文献所读取的字符串可以是由短语读取部28所读取的第1短语。
在提取的附随词的候补中,附随词提取部36将作为候补的且提取次数达到指定排位以上的字符串判定为附随词。具体地,附随词提取部36存储有将多个附随词的候补和各候补的提取次数相对应的表,每当提取附随词的候补时,都会增加与该候补相对应的提取次数。提取次数可以说是表示多个文档中的附随词候补的出现次数或出现频率的值。附随词提取部36将提取次数为前5%的候补判定为附随词。此外,判定附随词的时刻可以是对1个或多个专利文献进行主题词提取处理或者主题词词典更新处理的完成时刻。
如此,通过设定附随词的长度阈值(2个字符等)以及附随词判定阈值(前5%等),可以提高附随词提取的全面性。可以基于系统开发者的知识、使用信息处理系统10的实验等,将这些阈值设定为适当的值。例如,当强烈要求附随词的全面性时,可以将附随词判定阈值增大(例如前10%),在要求全面性的同时要求一定程度的准确性时,可以将附随词判定阈值缩小(例如前3%)。
词典更新部34将由附随词提取部36判定为附随词的候补字符串存储于附随词词典。图7为附随词词典的示例。在实施例的附随词词典中,多个附随词和各附随词在多个文档中出现的次数彼此对应记录。在附随词的候补中,词典更新部34将未存储于附随词词典的候补(即新附随词的候补)新存储于附随词词典中,将其出现次数设定为1。另一方面,在附随词候补中,针对已经存储于附随词词典的候补(即过去已经检索出的随词词),词典更新部34阻止将其重复存储在附随词词典的同时,增加该附随词的出现次数。
当通过词典更新部34更新主题词词典和附随词词典中的至少一个时,词典输出部38至少将更新的词典数据输出至指定的外部装置。在实施例中,将更新后的最新词典数据发送至自然语言处理装置16,但是作为变形例,也可以将最新的主题词词典和附随词词典输出至其他种类的服务器或存储器。
图8为表示图1中的自然语言处理装置16的功能结构的框图。自然语言处理装置16具备与词典制作装置14的控制部20、记忆部22、通信部24对应的控制部40、记忆部42、通信部44。控制部40通过通信部44,与专利文献DB12以及词典制作装置14进行数据交换。
记忆部42包括词典记忆部46以及分析结果记忆部48。词典记忆部46与词典制作装置14的词典记忆部26相对应,存储有通过词典制作装置14所制作的主题词词典以及附随词词典。分析结果记忆部48存储有表示由控制部40所控制的自然语言处理的结果的数据。具体地,存储有包括从多个专利文献中分别提取的单词列表在内的每个专利文献的提取单词数据。
控制部40包括文档读取部50、分数设定部52、单词提取部54、分析结果提供部56。文档读取部50从作为自然语言处理对象的文档(在实施例中为存储于专利文献DB12中的专利文献)中,读取记载于该文档中的字符串。例如,可以将句号、英文句点等作为分隔符且以句子为单位读取字符串,也可以与短语读取部28一样以短语为单位读取字符串。
分数设定部52参照词典记忆部46的主题词词典,对以文档读取部50读取的字符串中的各个字符为起始的主题词进行确定。分数设定部52根据主题词词典、附随词词典以及预先设定的评分标准,将与各主题词的属性相对应的分数赋予给以各字符为起始的各主题词。实施例的评分标准,旨在提取在人们看来自然的单词,有以下所示3种标准的组合。作为变形例,可以任意选用其中任意1个标准或2个标准。
(标准1)以字符串中的各字符为起始的主题词中,与内含的附随词的个数相对较多的主题词的分数相比,内含的附随词的个数相对较少的主题词的分数更高。内含的附随词的个数越少的主题词,其分数可以调节地更高。这是因为内含较多附随词的主题词,本来就是复合词的可能性更高,因此不宜作为单词进行提取。
(标准2)以字符串中的各字符为起始的主题词中,与字符数相对较少的主题词的分数相比,字符数相对较多的主题词的分数更高。字符数越多的主题词,其分数可以调节地更高。这是因为字符数较多的主题词,在文档内是有特征的单词,适合作为提取对象。
(标准3)以字符串中的各字符为起始的主题词中,与出现次数相对较少的主题词的分数相比,在主题词词典中相对应的出现次数相对较多的主题词的分数更高。出现次数越多的主题词,其分数可以调节地更高。这是因为出现次数较多的主题词被应用在很多的文献中,适合作为提取对象。
实施例的分数设定部52为文档读取部50所读取的字符串中的每个字符制作1个候补条目。图9为候补条目的示例。同一图的位置“e0”表示所读取的字符串中的处理对象位置(换言之,即现在处理位置)。同一图的“e0+n”(n为正整数)表示距处理对象位置的距离(例如字符数)。分数设定部52确定以各字符为起始的主题词(这里称为“单词候补”),将各单词候补的字符数设定在候补条目中。另外,分数设定部52将各单词候补算出的分数设定在候补条目中。
对分数的计算方法进行说明。分数设定部52根据上述标准1,包含于各单词候补中的附随词的个数越多,单词候补的分数要素(P)则越小。并且,当单词候补的第1个字符为附随词时,分数设定部52将分数要素(P)缩小。分数要素(P)的计算公式如下所示。
[数1]
Figure GDA0004082734910000101
[数2]
Figure GDA0004082734910000102
公式1的“W”为单词候补的字符串。公式1以及公式2的“L”为全部附随词的集合。公式1的“C”是从附随词词典中获取字符a、b作为附随词出现次数的函数。因此,“C(a)”、“C(b)”分别是字符a、b作为附随词出现的次数。公式2的“P0”是当单词候补的第1个字符(W0)为附随词(L)时的特殊罚分值,其范围设定在0<P0<1。公式1中的β为常数。公式1内的分数对单词候补中的每个附随词进行评价,所内含的附随词的个数越多,P则越小,若第1个字符为附随词时,那么P则变得更小。另外,与单词候补内的附随词相对应的出现次数(C(a))越大,换言之,所内含的附随词的使用频率越大,P则越小。分数要素(P)是反映基于内含附随词的罚分的值。
然后,分数设定部52根据公式1所求出的单词候补的P(W)、单词候补的字符数(r)、单词候补的出现次数(t),来确定单词候补的分数(Q)。分数(Q)的计算公式如下所示。
[数3]
Q=f(P(W),r,t)…式(3)
公式3的函数f是确定单词候补的分数(Q)的函数,旨在使3个参数,即单词候补的P(W)、单词候补的字符数(r)、单词候补的出现次数(t)以及单词候补的分数(Q)成正相关。分数设定部52根据公式3,单词候补的P(W)越大、并且单词候补的字符数(r)越多、并且单词候补的出现次数(t)越多,算出的单词候补的分数(Q)则越大。例如,公式3的函数f可以是将单词候补的P(W)、单词候补的字符数(r)、单词候补的出现次数(t)三者相乘的函数。即“Q=P(W)×r×t”。
单词提取部54参照通过分数设定部52所设定的各个单词候补的分数,根据以字符串中的处理对象位置为起始的第1单词候补被赋予的分数、和以第1单词候补中的第2个字符之后的字符为起始的第2单词候补被赋予的分数的大小关系,将第1单词候补作为单词进行提取。作为大小关系的比较对象,实施例的单词提取部54也使用以紧接第1单词候补之后的字符为起始的第3单词候补被赋予的分数。
具体地,单词提取部54将以字符串中的处理对象位置为起始的单词候补(此处称为“现在候补”)被赋予的分数识别为“现在候补分数”。另外,单词提取部54将在字符串中以紧接现在候补之后的字符为起始的单词候补(此处称为“下次候补”)被赋予的分数识别为“下次候补分数”。进一步地,以现在候补内的第2个字符之后为起始的单词候补(此处称为“中间候补”)被赋予的分数识别为“中间候补分数”(v)。
由于现在候补分数以及下次候补分数都是由分数设定部52进行计算,因此单词提取部54对中间候补分数v重新进行计算。中间候补分数v的计算公式如下所示。
[数4]
Figure GDA0004082734910000121
公式4的e0是处理对象位置的候补条目(即现在候补),|e0|是现在候补的字符数。T是现在候补之后的所有候补条目。S将(处理对象位置+1)到(处理对象位置+|e0|-1)作为单词的开始位置(i),将T分解成多个单词,将各个单词的分数相加。公式4的函数S,可以说是提供不提取处理对象位置(即e0)的单词时的中间候补分数的函数。
现在候补分数为0时,单词提取部54识别处理对象位置的字符不构成主题词,舍弃处理对象位置的1个字符,并将处理对象位置提前1个字符。此外,现在候补分数为0时,将处理对象位置的字符识别为单词(例如附随词),可以将处理对象位置的1个字符作为单词进行提取。
现在候补分数大于0时,单词提取部54根据公式4计算v值。当v≤现在候补分数或者v≤下次候补分数时,单词提取部54从以处理对象位置为起始的单词(即现在候补)进行提取,将现在候补的字符数、处理对象位置提前。另一方面,当v>现在候补分数并且v>下次候补分数时,单词提取部54舍弃处理对象位置的1个字符,将处理对象位置提前1个字符。这是因为提取以现在候补中间的字符以起始的单词时的分数较大。
图10为单词提取处理对象的字符串的示例。同一图与图9相对应,以e0表示处理对象位置。单词提取部54将图9的e0的候补条目的分数“15”识别为现在候补分数,将图9的e0+5(e0的单词候补字符数为5)的候补条目的分数“11”识别为下次候补分数。然后,在图10中,图9的e0+1的候补条目的分数“8”、和图9的e0+3的候补条目的分数“10”的合计值“18”被识别为中间候补分数(v)。在图10的示例中,由于v>现在候补分数并且v>下次候补分数成立,因此单词提取部54舍弃处理对象位置的字符“新”,将处理对象位置提前1个字符。
实际上,单词提取部54计算以现在候补的第3个字符为起始的中间候补与以紧接该中间候补之后为起始的单词的分数的合计值,以及以现在候补的第4个字符为起始的中间候补与以紧接该候补之后为起始的单词的分数的合计值。然后如公式4所示,将多种合计值中的最大值作为v的值采用。
单词提取部54将从某篇专利文献中读取的字符串中提取的多个单词与该专利文献相对应,收录至分析结果记忆部48的提取单词数据中。分析结果提供部56将记忆于分析结果记忆部48的提取单词数据,即将各专利文献的字符串分解为单词的数据定期地或按照要求发送至预先设定的外部装置(例如专利文献的检索装置)。
对具有以上结构的信息处理系统10的运行进行说明。
图11为表示词典制作装置14的运行的流程图。词典制作装置14接受用户的指示时,和/或在预先设定的时刻,定期执行图11所示的词典制作处理。在词典制作处理的开始时刻中,词典记忆部26的主题词词典和附随词词典都为空。即,在词典制作处理的初始状态下,并不需要将主题词和附随词预先确定的词典。
词典制作装置14的短语读取部28从专利文献DB12中获取多个专利文献,从各专利文献中分别读取第1短语(S10)。短语拆分部30通过将第1短语所示的字符串分割成表示存储于词典记忆部26的主题词词典中的主题词的字符串,以及除去该主题词之外的字符串,提取多个第2短语(S12)。此外,当主题词词典为空时,如果在第1短语中没有检测到主题词,那么短语拆分部30将第1短语直接作为第2短语进行输出。
在指定个数以上的第2短语中,当从头开始的字符串(即第2短语的至少一部分的字符串)相同时(S14的Y),主题词提取部32将该开头字符串作为主题词的候补进行提取(S16)。词典更新部34在主题词提取部32提取的主题词候补中,将除去复合词的候补,并且表示未存储至主题词词典的新主体的候补存储至主题词词典(S18)。此时,词典更新部34也将对与各主题词对应的出现次数进行更新。在指定个数以上的第2短语中,如果不存在从开头开始的相同字符串(S14的N),则跳过S16和S18的处理。
在第1短语中,当在2个主题词之间存在2个字符以下的字符串(即不构成主题词的字符串)(S20的Y)时,则附随词提取部36参照主题词词典,将该字符串作为附随词的候补进行提取,将各候补的提取次数相加(S22)。附随词提取部36在多个附随词候补中,将提取次数相对靠前的候补判定为附随词。词典更新部34将由附随词提取部36判定为附随词的候补字符串存储于附随词词典(S24)。在第1短语中,如果在2个主题词之间不存在2个字符以下的字符串(S20的N),则跳过S22和S24的处理。
如果残存未完成字符串读取的专利文献(S26的N),则返回S10,如果完成了从所有专利文献的字符串读取时(S26的Y),则词典输出部38将记忆于词典记忆部26的主题词词典和附随词词典发送至自然语言处理装置16(S28)。此外,附随词提取处理可以在多个专利文献的各主题词提取处理结束后执行,也可以在所有专利文献的主题词提取处理都结束后执行。另外,词典输出部38可以将主题词词典和附随词词典上传至指定的服务器,自然语言处理装置16可以将主题词词典和附随词词典从该服务器下载下来。
图12为表示自然语言处理装置16的运行的流程图。自然语言处理装置16接受用户的指示时,和/或在预先设定的时刻,定期执行图12所示的自然语言处理。实施例中的自然语言处理是从记载于专利文献中的字符串中提取单词(特别是主题词)的处理。
当检测到未图示的外部装置(这里指专利检索装置。)中的检索索引数据已到更新时刻时(S30的Y),自然语言处理装置16的文档读取部50从专利文献DB12中获取多个专利文献,并读取各个专利文献的字符串(S32)。分数设定部52对以读取的字符串中的各字符为起始的主题词进行确定。分数设定部52根据指定的评分标准,导出以各字符为起始的各个主题词的分数,制作与多个字符相对应的多个候补条目(S34)。
单词提取部54比较各个候补条目的分数大小,基于该结果,从专利文献的字符串中提取单词,对分析结果记忆部48的提取单词数据进行更新(S36)。若残存未完成单词提取处理的专利文献(S38的N),则返回S32。若所有的专利文献的单词提取处理都已结束(S38的Y),分析结果提供部56将分析结果记忆部48的提取单词数据发送至专利检索装置(S40)。专利检索装置例如使用由自然语言处理装置16提供的提取单词数据,对专利文献检索用的索引数据进行更新。若未到专利检索装置中的检索索引数据的更新时刻时(S30的N),则跳过以后的处理步骤,结束本图的流程。
根据实施例的信息处理系统10,即便没有预先确定主题词和附随词的数据,也能够自动地提取主题词和附随词,能够自动制作主题词词典和附随词词典。另外,在自动地提取多个短语中相同的开头字符串作为主题词的同时,通过自动地提取主题词间较短的字符串作为附随词,能够制作全面性较高的主题词词典和附随词词典。例如,通常会从词典中去除拼写错误的字符串,然而在实施例的信息处理系统10中,只要实际记载于文献中,就可以作为主题词或者附随词进行提取,可以提供全面性较高的词素词典。另外,当追加了新的文献时(例如发布了新的专利公开公报),能够迅速且高效地对主题词词典和附随词词典进行更新。
另外,在从文献的字符串中提取单词的处理过程中,实施例的信息处理系统10将分数赋予给以字符串的各字符为起始的各主题词。然后,根据以处理对象位置为起始的第1主题词的分数、与以第1主题词中的第2个字符之后的字符为起始的第2主题词的分数的大小关系,决定是否提取第1主题词。由此,可以比较容易地实现从适当的位置分割单词。进而在实施例中,以紧接第1主题词之后的字符为起始的第3主题词的分数也包含在比较对象内,因此能够在更加适当的位置提取单词。
通过以上,以实施例为基础对本发明进行了说明。该实施例是示例,这些各构成要素和各处理过程的组合可以变化成各种变形例,而且本领域的人员应该理解,这些变形例也属于本发明的范围。
对第1变形例进行说明。在第1变形例中,允许由多个主题词组合构成的复合词收录至词典。具体地,当第1字符串(例如“日本”)和包括该第1字符串的第2字符串(例如“日本料理”)作为主题词的候补被提取时,词典制作装置14的词典更新部34可以将第1字符串和第2字符串两个字符串都存储至主题词词典。由其结果可知,复合词也收录在主题词词典中。
在自然语言处理装置16作为处理对象的字符串中,以特定的处理对象位置为起始的主题词(即现在候补e0)可以存在多个,如“日本”和“日本料理”。自然语言处理装置16的分数设定部52对以字符串中的各字符为起始的1个以上的主题词(例如“日本”、“日本料理”)的分数分别进行计算。
自然语言处理装置16的单词提取部54所使用的中间候补分数v的计算公式如下所示。
[数5]
Figure GDA0004082734910000151
公式5的D0是存在于T的开头的1个以上的现在候补e0的集合。针对1个以上的各个现在候补,单词提取部54进行与实施例的公式4相同的计算,求得函数S的最大值,进而将横跨1个以上的现在候补的函数S的最大值设为中间候补分数v。例如,假设有2个现在候补(现在候补1、现在候补2)以及2个下次候补(下次候补1、下次候补2)。当v>现在候补1分数、v>下次候补1分数、v>现在候补2分数、v>下一次候补2分数成立时,单词提取部54舍弃处理对象位置的1个字符,将处理对象位置提前1个字符。另外,当上述条件不成立,且现在候补1分数≥现在候补2分数时,可以将现在候补1作为单词进行提取,现在候补1分数<现在候补2分数时,可以将现在候补2作为单词进行提取。
根据第1变形例,能够应对作为复合词提取的单词。此外,在第1变形例中,不是复合词的主题词收录于主题词词典中,这与实施例相同,并不会降低词典的全面性。
对第2变形例进行说明。词典制作装置14的短语读取部28可以将与从专利文献中读取的字符串的字符编码值相应的字符编码分类(例如,拉丁字符、CJK字符、阿拉伯字符、俄罗斯字符等)作为对象语言进行识别。例如,当专利文献的字符编码为UNICODE时,短语读取部28参照UNICODE的编码表,可以识别从专利文献中所读取的字符串的字符编码分类。作为第2变形例的一个实施方式,短语读取部28将对象语言的连续字符串作为短语进行读取的同时,可以忽视与对象语言不符的字符(字符编码值),也可以将其转换为空白等不具有意义的字符进行读取。
作为第2变形例的另一实施方式,词典制作装置14的短语读取部28可以允许多个字符编码分类。例如,短语读取部28可以将多个字符编码分类中的字符串作为第1短语进行读取。这时,在专利文献的字符串中间,当字符编码分类从第1分类变化至第2分类时,短语读取部28可以将属于第1分类的字符串和属于第2分类的字符串提取为不同的第1短语。或者,短语拆分部30根据已知的主题词对短语读取部28所提取的第1短语进行拆分,更进一步地,在第1短语中间,当字符编码分类从第1分类变化至第2分类时,可以将属于第1分类的字符串和属于第2分类的字符串提取为不同的第2短语。
对第3变形例进行说明。虽然在上述实施例中没有提到,但是可以将专利文献的检索历史反馈给词典。具体地,在词典制作装置14的主题词词典中,各主题词与表示用于检索的频率的指标值(以下称为“检索频率值”)对应收录。词典制作装置14还具备检索历史获取部,检索历史获取部定期地从专利检索装置(未图示)中获取表示用于专利检索的关键词或关键短语的数据(以下称为“检索历史”),并存储至记忆部22的检索历史记忆部。词典制作装置14的词典更新部34参照记忆于检索历史记忆部的检索历史和主题词词典,确定包含在检索历史中的主题词,确定检索历史中的各个主题词的检索次数。词典更新部34根据各主题词的检索次数,导出各主题词的检索频率值(也可以是检索次数本身),存储至主题词词典。
主题词词典中,可以存储有专利文献DB12的专利文献中的各主题词的出现次数和检索频率值,也可以存储检索频率值代替出现次数。自然语言处理装置16的分数设定部52,在决定以读取的字符串内的各字符为起始的单词的分数时,可以使用检索频率值代替实施例的出现次数,也可以同时使用实施例的出现次数和检索频率值。例如,与检索频率值相对较小的单词的分数相比,分数设定部52可以调大检索频率值相对较大的单词的分数。
对第4变形例进行说明。虽然在上述实施例中没有提到,但是可以将专利文献的单词化中的每个单词的使用频率反馈给词典。具体地,词典制作装置14还具备单词化历史获取部,单词化历史获取部从自然语言处理装置16中获取表示专利文献单词化的各个单词的使用次数或者使用频率的单词化历史,并存储至记忆部22的单词化历史记忆部。词典制作装置14的词典更新部34参照记忆至单词化历史记忆部的单词化历史,确定单词化历史中的各个主题词的使用次数或者使用频率。词典更新部34将各个主题词的使用次数或者使用频率存储至主题词词典。自然语言处理装置16的分数设定部52,在决定以读取的字符串内的各字符为起始的单词的分数时,可以使用单词化中的使用次数或者使用频率,代替本实施例所述的词典制作时的出现次数。例如,与使用频率相对较小的单词的分数相比,分数设定部52可以调大使用频率值相对较大的单词的分数。
对第5变形例进行说明。在上述实施例中,在词典制作的初始状态下,假设主题词词典和附随词词典为空,即假设没有预先收录主题词和附随词。在变形例中,在词典制作的初始状态下,可以在词典制作装置14的词典记忆部26中存储现有词典(例如事先人工完成的主题词词典和附随词词典)。人工制作的词典,收录单词的正确性和精度虽然很高,但全面性却较低。词典制作装置14的词典更新部34将主题词提取部32自动提取的主题词追加至现有的主题词词典,将附随词提取部36自动提取的附随词追加至现有的附随词词典。由此,能够制作兼顾正确性和全面性这两方面性能的词典,能够更加提高自然语言处理装置16中的自然语言处理的正确性和全面性。
对第6变形例进行说明。在上述实施例中,提供了一种有助于词素分析的技术,而在此将列举其他的应用例。本实施例所述的技术能够应用于(1)标签云。例如,虽然词典制作装置14是根据多个文献制成的词典,参照单词(主题词和/或附随词)与出现次数相对应的词典,生成一种图像,该图像能够以与文献中的出现次数相对应的方式(形状、图案、色彩等)显现多个单词。
另外,本实施例所述的技术可以适用于与(2)单词变动有关的报告的制作。例如,词典制作装置14是根据特定领域的多个文献制作的字典,参照单词(主题词和/或附随词)与出现次数相对应的词典,在一定期间内,通过对单词的出现次数的变动进行图表化,可以生成表示上述特定领域趋势和变化的信息。另外,本实施例所述的技术适用于(3)各国语言词典的制作。例如,词典制作装置14能够根据用各国语言写成的文献,自动生成各国语言的主题词词典和附随词词典。
对第7变形例进行说明。在上述实施例中,可以根据专利文献制作主题词词典和附随词词典,当然也可以根据各种种类、各种领域的文献以及文档数据来制作主题词词典和附随词词典。此外,当自然语言处理装置16针对特定领域的文献进行自然语言处理时,词典制作装置14可以通过从该特定领域的文献中提取主题词和附随词,制作适用于该特定领域文献的自然语言处理的主题词词典和附随词词典。
上述实施的方案和变形例的任意组合也可用作本发明的实施方案。由组合产生的新实施方案具有被组合的实施方案和变形例的效果。另外,本领域的人员还应理解,根据权利要求所述的各组成元件执行的功能是通过实施方案和变形例中所示的各单个组成要素或其协作来实现的。
符号说明
10 信息处理系统
14 词典制作装置
16 自然语言处理装置
26 词典记忆部
32 主题词提取部
34 词典更新部
36 附随词提取部
46 词典记忆部
52 分数设定部
54 单词提取部
实用性
本发明可以适用于进行自然语言处理的计算机。

Claims (10)

1.一种信息处理系统,其特征在于,具备:
词典记忆部,用于记忆计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典;
短语提取部,用于从第1文档的字符串中以至少除去已经存储在所述词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;
主题词提取部,用于当由所述短语提取部所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;
词典更新部,用于将所述主题词提取部所提取的主题词存储在所述词典中。
2.根据权利要求1所述的信息处理系统,其特征在于:当第1字符串、以及包括所述第1字符串的第2字符串这两个字符串作为主题词被提取时,所述词典更新部将所述第1字符串存储于所述词典的同时,阻止所述第2字符串存储于所述词典。
3.根据权利要求1或2所述的信息处理系统,其特征在于:还具备附随词提取部,
所述词典记忆部,对作为存储所述主题词的词典的主题词词典、和作为存储附随词的词典的附随词词典进行记忆,其中,附随词是用于附随于所述主题词的单词;
所述附随词提取部,从所述第1文档的字符串中除去存储在所述主题词词典中的主题词,从剩余的字符串中,将字符数为指定值以下的字符串作为附随词进行提取;
所述词典更新部将所述附随词提取部所提取的附随词存储至所述词典。
4.根据权利要求3所述的信息处理系统,其特征在于:所述附随词提取部,从所述剩余字符串中将长度为指定值以下的字符串作为附随词的候补进行提取,将作为候补的提取次数为指定排位以上的字符串判定为附随词。
5.根据权利要求1所述的信息处理系统,其特征在于:还具备分数设定部以及单词提取部,
所述词典记忆部,对作为存储所述主题词的词典的主题词词典、和作为存储附随词的词典的附随词词典进行记忆,其中,附随词是用于附随于所述主题词的单词;
所述分数设定部参照所述主题词词典,对以从作为自然语言处理对象的第2文档中读取的字符串中的各字符为起始的主题词进行确定,在以各字符为起始的主题词中,与内含附随词个数相对较多的主题词相比,将较大的分数赋予内含附随词个数相对较少的主题词;
所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、和以所述第1主题词中的第2个字符之后的字符为起始的第2主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
6.根据权利要求1所述的信息处理系统,其特征在于:还具备分数设定部以及单词提取部,
所述分数设定部参照所述词典,对以从作为自然语言处理对象的第2文档中读取的字符串中的各字符为起始的主题词进行确定,在以各字符为起始的主题词中,与字符数相对较少的主题词相比,将较大的分数赋予字符数相对较多的主题词;
所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、和以所述第1主题词中的第2个字符之后的字符为起始的第2主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
7.根据权利要求1所述的信息处理系统,其特征在于:还具备分数设定部以及单词提取部,
所述词典更新部将所述第1文档中的各主题词的出现次数记录至所述词典;
所述分数设定部参照所述词典,对以从作为自然语言处理对象的第2文档中读取的字符串中的各字符为起始的主题词进行确定,在以各字符为起始的主题词中,与所述出现次数相对较少的主题词相比,将较大的分数赋予所述出现次数相对较多的主题词;
所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、和以所述第1主题词中的第2个字符之后的字符为起始的第2主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
8.根据权利要求5至7中任一项所述的信息处理系统,其特征在于:所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、以所述第1主题词中的第2个字符之后为起始的第2主题词所被赋予的分数、以及以所述第1主题词之后的字符为起始的第3主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
9.一种通过信息处理装置实现的信息处理方法,其特征在于:
该信息处理装置记忆计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典,
该信息处理装置执行以下步骤:
短语提取步骤,从第1文档的字符串中以至少除去已经存储在所述词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;
主题词提取步骤,当所述短语提取步骤所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;
以及将所述主题词提取步骤所提取的主题词存储至词典的步骤。
10.一种存储介质,存储有通过信息处理装置实现的计算机程序,
该信息处理装置记忆计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典,
该计算机程序用于使信息处理装置进行以下步骤:
短语提取步骤,用于从第1文档的字符串中以至少除去已经存储在所述词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;
主题词提取步骤,用于当所述短语提取步骤所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;
将所述主题词提取步骤所提取的主题词存储在所述词典中。
CN201780084260.3A 2017-01-20 2017-08-07 一种信息处理系统、信息处理方法、及计算机程序 Active CN110235127B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-008054 2017-01-20
JP2017008054A JP6782644B2 (ja) 2017-01-20 2017-01-20 情報処理システム、情報処理方法、およびコンピュータプログラム
PCT/JP2017/028632 WO2018135023A1 (ja) 2017-01-20 2017-08-07 情報処理システム、情報処理方法、およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN110235127A CN110235127A (zh) 2019-09-13
CN110235127B true CN110235127B (zh) 2023-05-26

Family

ID=62907865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780084260.3A Active CN110235127B (zh) 2017-01-20 2017-08-07 一种信息处理系统、信息处理方法、及计算机程序

Country Status (3)

Country Link
JP (1) JP6782644B2 (zh)
CN (1) CN110235127B (zh)
WO (1) WO2018135023A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225174A (ja) * 1992-02-07 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 漢字読み付与装置
JP2002297589A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
JP2010140107A (ja) * 2008-12-09 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN104915364A (zh) * 2014-03-14 2015-09-16 欧姆龙株式会社 信息处理系统及处理方法、信息处理服务器和终端装置
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105468581A (zh) * 2014-09-25 2016-04-06 京瓷办公信息系统株式会社 词汇表管理装置、词汇表管理系统和词汇表管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225174A (ja) * 1992-02-07 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 漢字読み付与装置
JP2002297589A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
JP2010140107A (ja) * 2008-12-09 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN104915364A (zh) * 2014-03-14 2015-09-16 欧姆龙株式会社 信息处理系统及处理方法、信息处理服务器和终端装置
CN105468581A (zh) * 2014-09-25 2016-04-06 京瓷办公信息系统株式会社 词汇表管理装置、词汇表管理系统和词汇表管理方法
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统

Also Published As

Publication number Publication date
CN110235127A (zh) 2019-09-13
WO2018135023A1 (ja) 2018-07-26
JP2018116591A (ja) 2018-07-26
JP6782644B2 (ja) 2020-11-11

Similar Documents

Publication Publication Date Title
CN106649783B (zh) 一种同义词挖掘方法和装置
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
US9195738B2 (en) Tokenization platform
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US6470307B1 (en) Method and apparatus for automatically identifying keywords within a document
US10417269B2 (en) Systems and methods for verbatim-text mining
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
CN110134760A (zh) 一种搜索方法、装置、设备及介质
KR20060043381A (ko) 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템
CN110674365A (zh) 一种搜索方法、装置、设备及存储介质
Jain et al. Context sensitive text summarization using k means clustering algorithm
Alhanini et al. The enhancement of arabic stemming by using light stemming and dictionary-based stemming
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
Prutskov Algorithmic provision of a universal method for word-form generation and recognition
CN109923538B (zh) 文本检索装置、文本检索方法以及计算机程序
CN110235127B (zh) 一种信息处理系统、信息处理方法、及计算机程序
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
Reddy et al. POS Tagger for Kannada Sentence Translation
Gurusamy et al. Stemming techniques for tamil language
CN111930880A (zh) 一种文本编码检索的方法、装置及介质
Yahya et al. Enhancement tools for Arabic web search
Demir Context tailoring for text normalization
Saad et al. Keyphrase extraction for Islamic Knowledge ontology
CN111414459A (zh) 人物关系获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant