CN110308799A - 文本联想的方法、装置、计算机设备和存储介质 - Google Patents

文本联想的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110308799A
CN110308799A CN201910435080.6A CN201910435080A CN110308799A CN 110308799 A CN110308799 A CN 110308799A CN 201910435080 A CN201910435080 A CN 201910435080A CN 110308799 A CN110308799 A CN 110308799A
Authority
CN
China
Prior art keywords
text
association
word
gram model
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910435080.6A
Other languages
English (en)
Inventor
艾明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910435080.6A priority Critical patent/CN110308799A/zh
Publication of CN110308799A publication Critical patent/CN110308799A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及检测模型的技术领域,提供了一种文本联想的方法、装置、计算机设备和存储介质,包括:获取用户在输入框输入的文本词;基于N‑gram模型输出所述文本词对应的第一联想文本,以及基于边界N‑gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。本申请输出的第一联想文本以及第二联想文本中包含了文本词之前和之后的所有联想文本,为用户所输入的文本词联想出更全面的文本。

Description

文本联想的方法、装置、计算机设备和存储介质
技术领域
本申请涉及检测模型的技术领域,特别涉及一种文本联想的方法、装置、计算机设备和存储介质。
背景技术
目前,在一些输入法中,用户输入文字时,大多会进行相应的文本联想,即联想与用户所输入的文字相关联的文本推送给用户,便于用户快速输入文本。但是,目前的文本联想通常只能是由前往后进行联想,对于文本的联想还不够全面,不够贴近用户的使用习惯。
发明内容
本申请的主要目的为提供一种文本联想的方法、装置、计算机设备和存储介质,为用户所输入的文本联想出更全面的文本。
为实现上述目的,本申请提供了一种文本联想的方法,包括以下步骤:
获取用户在输入框输入的文本词;
基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
进一步地,所述基于N-gram模型输出所述文本词对应的第一联想文本的步骤之后,还包括:
基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;
和/或,基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。
进一步地,所述基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
进一步地,所述基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
进一步地,所述按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序的步骤,包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
本申请还提供了一种文本联想的装置,包括:
获取单元,用于获取用户在输入框输入的文本词;
第一输出单元,用于基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
显示单元,用于按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
进一步地,还包括:
第二输出单元,用于基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;和/或,用于基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。
进一步地,所述第一输出单元基于N-gram模型输出所述文本词对应的第一联想文本,具体包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
进一步地,所述第一输出单元基于N-gram模型输出所述文本词对应的第一联想文本,具体包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
进一步地,所述显示单元按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,具体包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的文本联想的方法、装置、计算机设备和存储介质,获取用户在输入框输入的文本词;基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本;本申请输出的第一联想文本以及第二联想文本中包含了文本词之前和之后的所有联想文本,为用户所输入的文本词联想出更全面的文本。
附图说明
图1是本申请一实施例中文本联想的方法步骤示意图;
图2是本申请一实施例中文本联想的装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种文本联想的方法,包括以下步骤:
步骤S1,获取用户在输入框输入的文本词;
步骤S2,基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
步骤S3,按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
在本实施例中,上述文本联想的方法可用于在使用输入法输入文字或者在搜索输入框输入文字的搜索场景中。目前,在用户输入文字时,文本联想通常只能是由前往后进行联想。例如,用户输入平安,输出的联想文本通常是平安银行、平安科技等;而不会是中国平安,无法联想出输入文字之前的文本内容。因此,在输入时联想文本还是不够智能化,联想文本也不够全面。
在本实施例中,如上述步骤S1所述的,用户可以在文档中输入文字或者在搜索输入框输入文本词,该文本词可以是英文、汉字等,比如用户输入英文“qu”,或者输入文字“快”。
如上述步骤S2所述的,基于上述N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;上述N-gram模型以及边界N-gram模型对应的数据库中存储有大量的文本数据,对于文本数据(比如:商品名称、公司名称、用户昵称等提供用户检索的数据)事先进行切分处理,然后利用搜索引擎技术(如lucene、elasticsearch搜索引擎)等对文本数据进行创建搜索引擎索引,提供信息检索服务并存储在上述数据库中。
上述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括大量的训练文本,该训练文本的组成方式为:其中任意一个训练文本(词),都具有对应关联的前后文本内容。例如,上述第一文本训练集中的任意一个训练文本包括文本B及位于上述文本B之前的文本A以及位于上述文本B之后的文本C;
上述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中也包括有大量的训练文本,其中训练文本的组成方式为:任意一个训练文本都具有其文本由前往后进行关联的文本内容。例如,第二文本训练集中的任意一个训练文本包括文本B及位于上述文本B之后的文本C;而不包括上述文本A。
上述N-gram模型输出所述文本词对应的第一联想文本至少包括有上述文本词,且上述文本词可以出现在上述第一联想文本的中段或者末尾;而上述第二联想文本的前缀必定是上述文本词。
在本实施例中,上述每个第一联想文本以及每个所述第二联想文本中的词的最大长度为N;上述第一联想文本以及所述第二联想文本中的词的最大长度取决于上述N-gram模型以及边界N-gram模型中的N值大小。
根据上述N-gram模型中的N值的不同,上述N-gram模型分别为bi-gram(N=2),tri-gram(N=3),four-gram(N=4),five-gram(N=5)等;N值设置为不同时,上述N-gram模型联想出的文本的最大长度不同;例如当N=4时,用户输入的文本词为安,则上述N-gram模型以及边界N-gram模型输出的结果则为平安、平安壹、平安壹账,安壹账通,即联想出的文本的最大长度不大于4。若N为2,则对应的结果为平安、安全等。
具体地,若用户输入的文本词为壹,则基于上述N-gram模型输出的第一联想文本则可以是壹账通、金融壹、金融壹账通、金融壹账通;即上述文本词可能出现在第一联想文本的任意位置;而基于上述边界N-gram模型输出的第二联想文本则为壹账通,即只能从前往后进行联想。进一步地,若上述N为3,则上述第一联想文本和第二联想文本的最大长度也只能为3,例如壹账通、金融壹、融壹账。
本实施例中,采用了上述N-gram模型以及边界N-gram模型,共同进行文本联想,便于无论用户输入的内容是什么,都可以给出相应的联想结果提示,更加贴近用户的使用习惯,联想出的文本更加全面,提升用户使用体验。
如上述步骤S3所述的,按照预设排序规则,对上述第一联想文本以及第二联想文本进行排序;由于经过上述N-gram模型以及边界N-gram模型的文本联想,通常可以输出多个联想文本,为了表达出最贴近所述用户输入的文本词,则需要对上述第一联想文本以及第二联想文本进行排序;排序的规则可以预先设定,根据预先设定的排序规则对上述第一联想文本以及第二联想文本进行排序之后,再显示排序后的结果。
在一实施例中,上述步骤S2中,基于N-gram模型输出所述文本词对应的第一联想文本之后,还包括:
S2a,基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;其中所述同义词以及近义词为通过网络爬虫工具搜集并存储在数据库中,或者为用户根据业务领域中的同义词以及近义词用语习惯预先录入在数据库中。
和/或,基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。其中所述同义词以及近义词为通过网络爬虫工具搜集并存储在数据库中,或者为用户预先录入在数据库中。在本实施例中,根据上述N-gram模型输出所述第一联想文本再进行同义词或者近义词的联想。例如,用户输入快字,联想出的第一联想文本可能为快速、愉快等,而在此基础上,基于上述输出的第一联想文本还可以输出相应的同义词、近义词,如迅速、飞速、欢快等。
在另一实施例中,上述步骤S2中,基于N-gram模型输出所述文本词对应的第一联想文本,具体包括:
a、判断数据库是否存在与所述文本词相同的词语;
b、若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
在本实施例中,对于一些通用词的同义词、近义词都可以通过网络爬虫工具采集从互联网上搜集并基于上述N-gram模型进行训练得到数据库中相应词语的关联关系;对于一些行业、公司内部的一些特有名词的同义词、近义词需要靠业务人员在系统中录入;同时,还可以对用户的历史搜索记录数据进行分析、学习来完善同义词、近义词库。
具体地,对于名词金融壹账通,其同义词与近义词包括:平安一账通、一账通、亿账通;若没有维护同义词、近义词库,则当用户输入一账通时,则无法输出结果给出联系文本;而设置有上述同义词、近义词库后,则当用户输入一账通时,可以输出其对应的近义词“金融壹账通”。
在另一实施例中,上述步骤S2中,基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
在本实施例中,还可以通过N-gram模型获取到与输入的文本词部分相同的目标词语;即获取输入的文本词中包括的每一个输入字符(包括中文和英文),并选择出预设数量(例如两个、三个或全部)的目标字符,再从数据库中选择出至少包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本输出。
例如,若用户输入的是壹张通,对应的输入字符分别为壹、张、通;若预设数量为两个,则从数据库中选择出包括上述壹、张、通中至少两个输入字符的的目标词语,如壹账通、壹本通、张张通等。
在另一实施例中,所述步骤S3中,按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
在本实施例中,上述前缀命中的文本(即第二联想文本)相比中间命中的文本(即第一联想文本)的排序靠前;而对于第一联想文本以及第二联想文本中的文本,则可以按照历史联想命中次数进行排列,命中次数多的文本排列在前,通过上述排序规则完成对联想文本的排序优化。
在一实施例中,上述获取用户在输入框输入的文本词的步骤S1之后,还包括:
根据用户的历史输入记录,并从历史输入记录中匹配对应所述文本词的联想文本。
在本实施例中,上述数据库中存储有用户的历史输入记录,该历史输入记录包括用户输入的文本词及其对应的联想文本。本实施例中,针对上述历史输入记录产生之后,将其自动输入至N-gram模型中进行迭代训练,使得上述N-gram模型可以识别出每一个文本词在对应的历史输入记录中所关联的联想文本。
综上所述,为本申请实施例中提供的文本联想的方法,包括:获取用户在输入框输入的文本词;基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本;本申请输出的第一联想文本以及第二联想文本中包含了文本词之前和之后的所有联想文本,为用户所输入的文本词联想出更全面的文本。
参照图2,本申请一实施例中还提供了一种文本联想的装置,包括:
获取单元10,用于获取用户在输入框输入的文本词;
第一输出单元20,用于基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
显示单元30,用于按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
在本实施例中,如上述获取单元10所述的,用户可以在文档中输入文字或者在搜索输入框输入文本词,该文本词可以是英文、汉字等,比如用户输入英文“qu”,或者输入文字“快”。
如上述第一输出单元20所述的,基于上述N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;上述N-gram模型以及边界N-gram模型对应的数据库中存储有大量的文本数据,对于文本数据(比如:商品名称、公司名称、用户昵称等提供用户检索的数据)事先进行切分处理,然后利用搜索引擎技术(如lucene、elasticsearch搜索引擎)等对文本数据进行创建搜索引擎索引,提供信息检索服务并存储在上述数据库中。
上述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括大量的训练文本,该训练文本的组成方式为:其中任意一个训练文本(词),都具有对应关联的前后文本内容。例如,上述第一文本训练集中的任意一个训练文本包括文本B及位于上述文本B之前的文本A以及位于上述文本B之后的文本C;
上述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中也包括有大量的训练文本,其中训练文本的组成方式为:任意一个训练文本都具有其文本由前往后进行关联的文本内容。例如,第二文本训练集中的任意一个训练文本包括文本B及位于上述文本B之后的文本C;而不包括上述文本A。
上述N-gram模型输出所述文本词对应的第一联想文本至少包括有上述文本词,且上述文本词可以出现在上述第一联想文本的中段或者末尾;而上述第二联想文本的前缀必定是上述文本词。
在本实施例中,上述每个第一联想文本以及每个所述第二联想文本中的词的最大长度为N;上述第一联想文本以及所述第二联想文本中的词的最大长度取决于上述N-gram模型以及边界N-gram模型中的N值大小。
根据上述N-gram模型中的N值的不同,上述N-gram模型分别为bi-gram(N=2),tri-gram(N=3),four-gram(N=4),five-gram(N=5)等;N值设置为不同时,上述N-gram模型联想出的文本的最大长度不同;例如当N=4时,用户输入的文本词为安,则上述N-gram模型以及边界N-gram模型输出的结果则为平安、平安壹、平安壹账,安壹账通,即联想出的文本的最大长度不大于4。若N为2,则对应的结果为平安、安全等。
具体地,若用户输入的文本词为壹,则基于上述N-gram模型输出的第一联想文本则可以是壹账通、金融壹、金融壹账通、金融壹账通;即上述文本词可能出现在第一联想文本的任意位置;而基于上述边界N-gram模型输出的第二联想文本则为壹账通,即只能从前往后进行联想。进一步地,若上述N为3,则上述第一联想文本和第二联想文本的最大长度也只能为3,例如壹账通、金融壹、融壹账。
本实施例中,采用了上述N-gram模型以及边界N-gram模型,共同进行文本联想,便于无论用户输入的内容是什么,都可以给出相应的联想结果提示,更加贴近用户的使用习惯,联想出的文本更加全面,提升用户使用体验。
如上述显示单元30所述的,按照预设排序规则,对上述第一联想文本以及第二联想文本进行排序;由于经过上述N-gram模型以及边界N-gram模型的文本联想,通常可以输出多个联想文本,为了表达出最贴近所述用户输入的文本词,则需要对上述第一联想文本以及第二联想文本进行排序;排序的规则可以预先设定,根据预先设定的排序规则对上述第一联想文本以及第二联想文本进行排序之后,再显示排序后的结果。
在一实施例中,上述文本联想的装置,还包括:
第二输出单元,用于基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;其中所述同义词以及近义词为通过网络爬虫工具搜集并存储在数据库中,或者为用户根据业务领域中的同义词以及近义词用语习惯预先录入在数据库中。
和/或,上述第二输出单元,还可以用于基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。其中所述同义词以及近义词为通过网络爬虫工具搜集并存储在数据库中,或者为用户预先录入在数据库中。在本实施例中,根据上述N-gram模型输出所述第一联想文本再进行同义词或者近义词的联想。例如,用户输入快字,联想出的第一联想文本可能为快速、愉快等,而在此基础上,基于上述输出的第一联想文本还可以输出相应的同义词、近义词,如迅速、飞速、欢快等。
在另一实施例中,上述第一输出单元20基于N-gram模型输出所述文本词对应的第一联想文本,具体包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
在本实施例中,对于一些通用词的同义词、近义词都可以通过网络爬虫工具采集从互联网上搜集并基于上述N-gram模型进行训练得到数据库中相应词语的关联关系;对于一些行业、公司内部的一些特有名词的同义词、近义词需要靠业务人员在系统中录入;同时,还可以对用户的历史搜索记录数据进行分析、学习来完善同义词、近义词库。
具体地,对于名词金融壹账通,其同义词与近义词包括:平安一账通、一账通、亿账通;若没有维护同义词、近义词库,则当用户输入一账通时,则无法输出结果给出联系文本;而设置有上述同义词、近义词库后,则当用户输入一账通时,可以输出其对应的近义词“金融壹账通”。
在另一实施例中,所述第一输出单元20基于N-gram模型输出所述文本词对应的第一联想文本,具体包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
在本实施例中,还可以通过N-gram模型获取到与输入的文本词部分相同的目标词语;即获取输入的文本词中包括的每一个输入字符(包括中文和英文),并选择出预设数量(例如两个、三个或全部)的目标字符,再从数据库中选择出至少包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本输出。
例如,若用户输入的是壹张通,对应的输入字符分别为壹、张、通;若预设数量为两个,则从数据库中选择出包括上述壹、张、通中至少两个输入字符的的目标词语,如壹账通、壹本通、张张通等。
在另一实施例中,上述显示单元30按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,具体包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
在本实施例中,上述前缀命中的文本(即第二联想文本)相比中间命中的文本(即第一联想文本)的排序靠前;而对于第一联想文本以及第二联想文本中的文本,则可以按照历史联想命中次数进行排列,命中次数多的文本排列在前,通过上述排序规则完成对联想文本的排序优化。
在一实施例中,上述装置,还包括:
匹配单元,用于根据用户的历史输入记录,并从历史输入记录中匹配对应所述文本词的联想文本。
在本实施例中,上述数据库中存储有用户的历史输入记录,该历史输入记录包括用户输入的文本词及其对应的联想文本。本实施例中,针对上述历史输入记录产生之后,将其自动输入至N-gram模型中进行迭代训练,使得上述N-gram模型可以识别出每一个文本词在对应的历史输入记录中所关联的联想文本。
综上所述,为本申请实施例中提供的文本联想的装置,包括:获取单元10获取用户在输入框输入的文本词;第一输出单元20基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;显示单元30按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本;本申请输出的第一联想文本以及第二联想文本中包含了文本词之前和之后的所有联想文本,为用户所输入的文本词联想出更全面的文本。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本联想的方法。
上述处理器执行上述文本联想的方法的步骤:
获取用户在输入框输入的文本词;
基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
在一实施例中,上述处理器基于N-gram模型输出所述文本词对应的第一联想文本的步骤之后,还包括:
基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;
和/或,基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。
在一实施例中,上述处理器基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
在一实施例中,上述处理器基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
在一实施例中,上述处理器按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序的步骤,包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种文本联想的方法,具体为:
获取用户在输入框输入的文本词;
基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
在一实施例中,上述处理器基于N-gram模型输出所述文本词对应的第一联想文本的步骤之后,还包括:
基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;
和/或,基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。
在一实施例中,上述处理器基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
在一实施例中,上述处理器基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
在一实施例中,上述处理器按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序的步骤,包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
综上所述,为本申请实施例中提供的文本联想的方法、装置、计算机设备和存储介质,获取用户在输入框输入的文本词;基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本;本申请输出的第一联想文本以及第二联想文本中包含了文本词之前和之后的所有联想文本,为用户所输入的文本词联想出更全面的文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种文本联想的方法,其特征在于,包括以下步骤:
获取用户在输入框输入的文本词;
基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
2.根据权利要求1所述的文本联想的方法,其特征在于,所述基于N-gram模型输出所述文本词对应的第一联想文本的步骤之后,还包括:
基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;
和/或,基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。
3.根据权利要求1所述的文本联想的方法,其特征在于,所述基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
4.根据权利要求1所述的文本联想的方法,其特征在于,所述基于N-gram模型输出所述文本词对应的第一联想文本的步骤,包括:
获取所述文本词中的每一个输入字符,并从所述输入字符中选择出预设数量的目标字符;
基于所述N-gram模型从数据库中选择出包括所述目标字符的目标词语,并将所述目标词语作为第一联想文本。
5.根据权利要求1所述的文本联想的方法,其特征在于,所述按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序的步骤,包括:
将所述第二联想文本排列在所述第一联想文本之前,和/或将所述第一联想文本以及第二联想文本分别按照对应的历史联想命中次数进行排列;其中,历史联想命中次数多的文本排列在前。
6.一种文本联想的装置,其特征在于,包括:
获取单元,用于获取用户在输入框输入的文本词;
第一输出单元,用于基于N-gram模型输出所述文本词对应的第一联想文本,以及基于边界N-gram模型输出所述文本词对应的第二联想文本;其中,每个所述第一联想文本中至少包括所述文本词,每个所述第二联想文本均以所述文本词为前缀;所述N-gram模型为基于第一文本训练集训练得到,所述第一文本训练集中包括的训练文本为文本内容及其前后关联文本内容;所述边界N-gram模型为基于第二文本训练集训练得到,所述第二文本训练集中的训练文本只包括文本内容及其之后的关联文本内容;
显示单元,用于按照预设排序规则,对所述第一联想文本以及第二联想文本进行排序,并以排序后的结果显示所述第一联想文本以及第二联想文本。
7.根据权利要求6所述的文本联想的装置,其特征在于,还包括:
第二输出单元,用于基于所述N-gram模型从数据库中查找出是否具有与所述文本词匹配的同义词或者近义词,若有,则输出对应的同义词或者近义词;和/或,用于基于所述N-gram模型输出所述第一联想文本的同义词或者近义词。
8.根据权利要求6所述的文本联想的装置,其特征在于,所述第一输出单元基于N-gram模型输出所述文本词对应的第一联想文本,具体包括:
判断数据库是否存在与所述文本词相同的词语;
若不存在,则在数据库中查找与所述文本词具有关联关系的目标词语,将所述目标词语作为第一联想文本输出;所述目标词语为所述文本词同义词、近义词。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201910435080.6A 2019-05-23 2019-05-23 文本联想的方法、装置、计算机设备和存储介质 Pending CN110308799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910435080.6A CN110308799A (zh) 2019-05-23 2019-05-23 文本联想的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910435080.6A CN110308799A (zh) 2019-05-23 2019-05-23 文本联想的方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110308799A true CN110308799A (zh) 2019-10-08

Family

ID=68074811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910435080.6A Pending CN110308799A (zh) 2019-05-23 2019-05-23 文本联想的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110308799A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199031A (zh) * 2020-10-15 2021-01-08 科大讯飞股份有限公司 输入方法、装置、设备及存储介质
CN114743621A (zh) * 2022-03-21 2022-07-12 北京左医科技有限公司 病历的输入预测方法、病历的输入预测装置以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098932A (ja) * 2007-10-17 2009-05-07 Nomura Research Institute Ltd 連想検索システム
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
CN105022547A (zh) * 2014-04-24 2015-11-04 刘健萍 一种文本输入法及装置
CN107247518A (zh) * 2017-08-01 2017-10-13 微云数聚(北京)科技有限公司 多元联想输入的方法、装置、设备以及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098932A (ja) * 2007-10-17 2009-05-07 Nomura Research Institute Ltd 連想検索システム
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
CN105022547A (zh) * 2014-04-24 2015-11-04 刘健萍 一种文本输入法及装置
CN107247518A (zh) * 2017-08-01 2017-10-13 微云数聚(北京)科技有限公司 多元联想输入的方法、装置、设备以及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁宇;车万翔;刘挺;张梅山;: "基于众包的词汇联想网络的获取和分析", 中文信息学报, no. 03 *
朱晓华: "基于概念空间方法的信息检索技术研究", 大学图书馆学报, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199031A (zh) * 2020-10-15 2021-01-08 科大讯飞股份有限公司 输入方法、装置、设备及存储介质
CN114743621A (zh) * 2022-03-21 2022-07-12 北京左医科技有限公司 病历的输入预测方法、病历的输入预测装置以及存储介质

Similar Documents

Publication Publication Date Title
CN108509482B (zh) 问题分类方法、装置、计算机设备和存储介质
CN106874292B (zh) 话题处理方法及装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
CN110321470A (zh) 文档处理方法、装置、计算机设备和存储介质
CN109858010A (zh) 领域新词识别方法、装置、计算机设备和存储介质
US20120053927A1 (en) Identifying topically-related phrases in a browsing sequence
Vicente et al. Twitter gender classification using user unstructured information
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN108446295B (zh) 信息检索方法、装置、计算机设备和存储介质
CN111079043A (zh) 一种关键内容定位方法
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN110309507A (zh) 测试语料生成方法、装置、计算机设备和存储介质
CN106708885A (zh) 一种实现搜索的方法和装置
CN110308799A (zh) 文本联想的方法、装置、计算机设备和存储介质
US20040158558A1 (en) Information processor and program for implementing information processor
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN108509490A (zh) 一种网络热点话题发现方法及系统
CN111078839A (zh) 一种用于裁判文书的结构化处理方法及处理装置
CN111126058B (zh) 文本信息自动抽取方法、装置、可读存储介质和电子设备
CN106021532B (zh) 关键词的显示方法和装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN116756392B (zh) 一种医疗信息溯源方法、云平台及存储介质
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
CN112861510A (zh) 纪要处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination