CN110413757A - 一种词语释义确定方法、装置及系统 - Google Patents

一种词语释义确定方法、装置及系统 Download PDF

Info

Publication number
CN110413757A
CN110413757A CN201910694633.XA CN201910694633A CN110413757A CN 110413757 A CN110413757 A CN 110413757A CN 201910694633 A CN201910694633 A CN 201910694633A CN 110413757 A CN110413757 A CN 110413757A
Authority
CN
China
Prior art keywords
paraphrase
word
corpus information
information
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910694633.XA
Other languages
English (en)
Other versions
CN110413757B (zh
Inventor
朱义毅
杨喆炜
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910694633.XA priority Critical patent/CN110413757B/zh
Publication of CN110413757A publication Critical patent/CN110413757A/zh
Application granted granted Critical
Publication of CN110413757B publication Critical patent/CN110413757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种词语释义确定方法、装置及系统,利用各类资讯信息获取待释义词语对应的语料信息集合,再对语料信息集合中的语料信息进行核心谓语提取和释义提取,核心谓语的提取,为后续释义提取进行了信息的筛选和数据准备,提高释义提取的效率和准确性。再对提取出的释义集合进行降噪处理,剔除不符合释义要求的词语释义,获得待释义词语的目标词语释义,提高词语释义的准确性。本说明书实施例基于大数据分析,实现了词语释义的自动确定,不需要人工整理,提高了词语释义确定的时效性和准确性。

Description

一种词语释义确定方法、装置及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种词语释义确定方法、装置及系统。
背景技术
随着互联网和社会的不断发展,越来越多新的技术名词出现,很多用户对于一些技术性词语的解释不清楚,需要利用互联网或其他方式查询,如:利用百科系统查询。
通常用户需要的解释并不是严格意义上的知识,不需要标准化的、严格的定义,而是需要及时为使用者提供解释性的释义,以便于使用者更好地理解特定的名词,顺畅地开展工作。现有的百科系统主要依赖人工进行知识整理,需要持续投入大量的人力和物力,时效性、延续性相对较差。
如何提供一种时效性比较高的词语释义确定的方案,是本领域亟需解决的技术问题。
发明内容
本发明实施例提供了一种词语释义确定方法、装置及系统,实现了词语释义的自动化确定,提高了词语释义确定结果的准确性。
一方面,提供了一种词语释义确定方法,包括:
获取第一待释义词语的语料信息集合;
提取所述语料信息集合中的语料信息的核心谓语;
对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
另一方面,提供了一种词语释义确定装置,包括:
语料获取单元,用于获取第一待释义词语的语料信息集合;
核心谓语提取单元,用于提取所述语料信息集合中的语料信息的核心谓语;
释义提取单元,用于对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
释义降噪单元,用于对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
又一方面,提供了一种词语释义确定数据处理设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例中的词语释义确定方法。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述实施例中的芯词语释义确定方法。
又一方面,提供了一种词语释义确定系统,包括:
信息检索装置,用于接收待释义词语,获取所述待释义词语的语料信息,并对语料信息进行初步筛选,获得语料信息集合;
释义提取模型装置,用于利用依存语法模型对所述语料信息集合中的语料信息进行核心谓语提取,并利用短语树结构模型对带有核心谓语的语料信息进行释义提取,获得释义集合;
噪声消除装置,用于利用机器学习模型对释义集合中的词语释义进行分类,获得词语释义类别集合和非释义类别集合,并利用与存储的句法对词语释义类别集合中的词语释义进行相似度匹配,删除不符合相似度要求的词语释义,获得释义集合,将所述释义集合中的词语释义反馈给用户;
释义优选装置,用于基于用户的反馈信息对所述释义集合中的词语释义进行排序,将排序在预设名次内的词语释义作为所述机器学习模型的正样本数据,将排序在预设名次外的词语释义作为所述机器学习模型和所述依存语法模型的负样本数据。
在本发明实施例中提供了一种词语释义确定方法、装置、处理设备、计算机存储介质、系统,利用各类资讯信息获取待释义词语对应的语料信息集合,再对语料信息集合中的语料信息进行核心谓语提取和释义提取,核心谓语的提取,为后续释义提取进行了信息的筛选和数据准备,提高释义提取的效率和准确性。再对提取出的释义集合进行降噪处理,剔除不符合释义要求的词语释义,获得待释义词语的目标词语释义,提高词语释义的准确性。本说明书实施例基于大数据分析,实现了词语释义的自动确定,不需要人工整理,提高了词语释义确定的时效性和准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本说明书一个实施例中词语释义确定方法的流程示意图;
图2是本说明书又一个实施例中词语释义确定的数据处理方法的流程框架示意图;
图3是本说明书实施例中信息初筛阶段的流程示意图;
图4是本说明书实施例中释义提取过程的流程示意图;
图5是本说明书实施例中释义集合降噪处理的流程示意图;
图6是本说明书实施例中的词语释义优化的流程示意图;
图7是本说明书一个实施例中词语释义确定装置的结构示意图;
图8是本说明书一个实施例中词语释义确定系统的结构示意图
图9是本说明书实施例中词语释义确定服务器的硬件结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
百科系统可以为用户提供大量的常见词语的释义解答,用户可以在百科系统中输入待释义词语,百科系统根据用户输入的信息,返回对应的词语释义,方便用户查看。
本说明书一些实施例提供了一种词语释义确定方法,利用各类资讯信息获取待释义词语对应的语料信息集合,再对语料信息集合中的语料信息进行核心谓语提取和释义提取,再对提取出的释义集合进行降噪处理,剔除不符合释义要求的词语释义,获得待释义词语的目标词语释义。本说明书实施例基于大数据分析,实现了词语释义的自动确定,不需要人工整理,提高了词语释义确定的时效性和准确性。
本说明书中词语释义确定方法可以应用在客户端或服务器中,客户端可以是智能手机、平板电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)、智能车载设备等电子设备。
具体地,图1是本说明书一个实施例中词语释义确定方法的流程示意图,如图1所示,本说明书一个实施例中提供的词语释义确定方法可以包括以下步骤:
步骤102、获取第一待释义词语的语料信息集合。
在具体的实施过程中,第一待释义词语可以表示用户发送的释义请求中包括的待释义词语,如:用户可以发送释义请求,请求获取“人工智能”的释义,则“人工智能”可以表示第一待释义词语。本说明书实施例,可以通过各种资讯信息或语料数据库如:各大新闻网站、期刊杂志、学术报告、学术论文、百度百科等平台,获取第一待释义词语的语料信息,获取到的语料信息组成了语料信息集合。其中,语料信息可以表示与第一待释义词语相关联的信息,如:带有第一待释义词语的段落、文章或语句等。
在上述实施例的基础上,本说明书一些实施例中,所述获取第一待释义词语的语料信息集合,包括:
获取与所述第一待释义词语相关联的语料信息,对所述语料信息进行分词、查重、合并,获得所述语料信息集合。
在具体的实施过程中,与第一待释义词语相关联的语料信息可以为各大资讯平台中带有第一释义词语的段落或文章或上下文信息或语句等,获取到语料信息后可以对获取到的语料信息进行初步的筛选。如:可以对获取到的语料信息进行分词处理,对分词后的信息进行查重,将重复的部分进行合并,删除相近的语料信息,将合并后的语料信息作为语料信息集合。其中,分词可以表示针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法,例如:对于“什么是百度分词技术”,可以分割成“百度、分词、技术,具体可以采用字符串匹配分词法或词义分词法等。
此外,还可以对初步筛选后的语料信息集合进行片段抽取,如:抽取语料信息中第一待释义词语的上下文的完整句式,将抽取出的片段保存作为后续数据处理的基础,如可以将抽取的片段集合作为语料信息集合。
本说明书实施例,通过对获取到的语料信息进行初步的筛选,降低后续数据处理量,提高了数据处理效率和准确性。
步骤104、提取所述语料信息集合中的语料信息的核心谓语。
在具体的实施过程中,本说明书实施例可以对语料信息集合中的语料信息进行核心谓语的提取,如:可以利用依存语法分析对语料信息进行核心谓语提取,依存语法可以通过分析语言单位内成分之间的依存关系揭示其句法结构,即依存语法分析可以得出句子中的词与词之间的依存关系,找出核心词,若核心词为谓语则为核心谓语。例如:根据百科类信息的依存语法分析,核心谓语可以包含:“称为”、“作为”、“是指”、“表明”等。对于下列句型“绿色信贷常被称为可持续融资或环境融资,即通过调配贷款手段刺激可持续发展。”满足“名词+核心谓语”的句型,其核心词为“称为”,可作为核心谓语。当然,根据实际需要也可以采用其他的方法进行核心谓语的提取,本说明书实施例不作具体限定,例如:利用预存的谓语库,将语料信息与谓语库进行匹配,提取出语料信息中的核心谓语。
此外,本说明书实施例中在进行核心谓语的提取时,还可以确定出提取出的核心谓语对应的概率值,该概率值可以表示该核心谓语是释义性核心谓语的概率,可以利用该概率值对提取出的核心谓语或语料信息进行筛选,提高释义确定的准确性。
步骤106、对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合。
在具体的实施过程中,通常情况下,带有核心谓语的句型一般是对词语的解释,本说明书实施例中提取出语料信息的核心谓语后,可以对带有核心谓语的语料信息进行释义提取。例如:语料信息集合中包括100条语料信息,对语料信息进行核心谓语提取后,其中带有核心谓语的语料信息包括50条,则可以对带有核心谓语的50条语料信息进行释义提取。提取出的词语释义组成释义集合,其中,释义提取的方法可以采用句型匹配或专家规则等方式,本说明书实施例不作具体限定。
在上述实施例的基础上,本说明书一些实施例中,对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合,包括:
利用短语结构树模型对带有核心谓语的语料信息进行释义提取,提取出所述带有核心谓语的语料信息中的宾语信息;
将所述宾语信息作为所述第一待释义词语的词语释义,获得所述释义集合。
在具体的实施过程中,短语结构树可以用来表达句子的句法结构,其只有叶子结点与输入句子中的词语相关联,其他中间结点都是标记短语成分。短语结构分析通常吸收生成文法(来自语言学)的观点处理组成成分调序或者明显的中心词与依存词之间的长距离关系,短语结构树可以隐含地与谓词论元结构联系在一起。提取出语料信息的核心谓语后,利用短语结构树模型,可以获得该语料信息中的宾语信息,通常情况下宾语信息是可以表示词语释义的部分。
本说明书实施例,将依存语法和短语结构树相结合,可以准确的提取出语料信息中第一待释义词语的词语释义部分,并且通过核心谓语的提取可以初步的对语料信息进行筛选,提高释义提取的效率。
步骤108、对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
在具体的实施过程中,在提取出语料信息中的词语释义,获得释义集合后,可以对释义集合中的词语释义进行降噪处理,删除不符合释义要求的词语释义,获得第一词语释义的目标词语释义。其中释义要求的具体设置可以根据实际需要而定,如:将词语释义的特征词满足的条件或句型要求等作为释义要求。降噪处理方法可以根据实际需要进行选择,如:可以利用专家规则库,将词语释义与专家规则库中的句法规则进行匹配,删除不符合专家规则的词语释义,或者对提取出的词语释义进行特征提取,通过比对提取出的特征确定是否符合释义要求,或者利用机器学习模型,训练构建词语释义降噪处理模型,将提取出的词语释义输入到模型中,获得该词语释义对应的分值,将分值符合要求的词语释义作为目标词语释义。
本说明书一些实施例提供了一种词语释义确定方法,利用各类资讯信息获取待释义词语对应的语料信息集合,再对语料信息集合中的语料信息进行核心谓语提取和释义提取,核心谓语的提取,为后续释义提取进行了信息的筛选和数据准备,提高释义提取的效率和准确性。再对提取出的释义集合进行降噪处理,剔除不符合释义要求的词语释义,获得待释义词语的目标词语释义,提高词语释义的准确性。本说明书实施例基于大数据分析,实现了词语释义的自动确定,不需要人工整理,提高了词语释义确定的时效性和准确性。
在上述实施例的基础上,本说明书一些实施例中,所述对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义,包括:
对所述释义集合中的词语释义进行特征提取;
根据提取出的特征,利用分类器,对所述词语释义进行分类,获得词语释义类别集合和非释义类别集合;
将所述词语释义类别集合中的词语释义与预先设置的句法进行相似度匹配,将不符合相似度要求的词语释义删除,获得所述目标词语释义。
在具体的实施过程中,可以利用专家规则库或机器学习模型对释义集合中的词语释义进行特征提取,结合提取出的特征,利用分类器对释义集合中的词语释义进行分类,分为词语释义类别集合和非词语释义类别集合。如:可以将提取出的特征作为分类器的一个输入,根据分类器的输出结果对词语释义进行分类。其中,分类器可以表示一种用于对数据进行分类的机器学习模型,分类器的具体形式可以根据实际需要进行选择,如:可以是决策树、逻辑回归、朴素贝叶斯、神经网络等算法模型,本说明书实施例不作具体限定。例如:将“绿色信贷是一种金融工具”、“绿色信贷是低风险的”两句语料作为分类器的输入,得到第一个结果为真,第二个结果为假,即“绿色信贷是低风险的”结果被剔除,其并不符合释义特征。
对词语释义进行分类后,可以利用依存语法分析,将属于词语释义类别集合中的词语释义与预先存储的句法进行相似度匹配,将不符合相似度要求的词语释义删除,获得第一待释义词语的目标词语释义。预先存储的句法可以包括句型的结构等信息,利用依存语法分析,可以分析出词语释义的句型结构。将词语释义的句型结构与存储的句法的句型结构进行匹配,获得两个句型的相似度,根据相似度的大小,将相似度比较低的词语释义删除。具体匹配的方法可以根据实际需要进行选择,本说明书实施例不作具体限定。
本说明书实施例,利用机器学习模型对词语释义进行初步的降噪过滤,再利用句法分析匹配的方式,进行二次降噪过滤,提高了词语释义确定结果的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述方法还包括:
保存对释义集合中的词语释义进行降噪的日志记录数据;
将所述日志记录数据作为词语释义的分类以及句法相似度匹配的样本数据,优化所述分类器和所述句法相似度匹配的算法。
在具体的实施过程中,在对释义集合中的词语释义进行降噪处理时,可以将降噪处理过程的日志记录数据进行保存。如:分类器分出的释义类别集合和非释义类别集合的词语释义,以及进行句法相似度匹配中符合相似度要求和不符合相似度要求的词语释义,均保存。可以将不同的词语释义数据作为不同的样本数据,用于强化训练分类器以及句法相似度匹配的算法,以提高对词语释义进行降噪处理的准确性。
例如:可以将分类器分出的释义类别集合中的词语释义,以及相似度匹配中符合相似度要求的词语释义作为正样本数据,将非释义类别集合的词语释义以及相似度匹配中不符合相似度要求的词语释义作为负样本数据,对降噪处理过程中的特征提取、分类器分类、句法相似度匹配的算法进行优化训练,提高对词语释义进行降噪处理的准确性。
本说明书实施例将词语释义降噪处理过程中的日志数据作为样本数据,用于优化训练降噪处理的算法,提高了对词语释义进行降噪处理的准确性,并且实现了词语释义降噪处理的数据循环利用,实现了词语释义确定系统的可持续运行维护。
在上述实施例的基础上,本说明书一些实施例中,所述方法还可以包括:
保存用户对所述目标词语释义的反馈信息;
根据所述反馈信息确定所述目标词语释义的准确性排序;
将准确性排序在预设名次内的目标词语释义作为正样本数据;
将准确性排序在预设名次外的目标词语释义作为负样本数据;
将所述正样本数据、负样本数据作为核心谓语提取、词语释义降噪的样本数据,用于第二待释义词语的释义确定。
在具体的实施过程中,确定出第一待释义词语的目标词语释义后,可以将目标词语释义反馈给用户,用户根据自己的理解选择自己满意的词语释义,可以根据用户的点击或其他选择(如:用户可以对每个目标词语释义进行打分或准确性评价,作为反馈信息返回)获得用户的反馈信息。
本说明书一些实施例中,基于用户反馈信息可以确定出目标词语释义的准确性排序,如:可以根据不同用户对目标词语释义的点击频率,对目标词语释义进行优化排序,点击频率高的目标词语释义,排名越高。可以将准确性排序在预设名次内(具体可以根据实际需要设置,如:可以是1、3或10等)的目标词语释义作为正样本数据,将准确性排序在预设名次外的目标词语释义作为负样本数据。再利用正样本数据和负样本数据优化训练核心谓语的提取、释义提取、降噪处理等过程的算法,以用于后续其他的待释义词语的词语释义的确定。本说明书实施例中的第二待释义词语可以表示其他释义请求中的待释义词语,可以和第一待释义词语相同,也可以不同,以具体情况而定。
例如:用户A请求获取“绿色信贷”的词语释义,利用上述实施例的方法确定“绿色信贷”的词语释义时,确定出了15个目标词语释义。可以将15个目标词语释义返回给用户A,用户A根据自己的需要选择其中一个或多个目标词语释义进行查看。同样的,其他用户在请求获取“绿色信贷”的词语释义时,可以将上述15个目标词语释义返回,根据各个用户的反馈信息,对15个目标词语释义进行准确性排序。将排序在前5名的目标词语释义作为正样本数据,将排在5-15名的目标词语释义作为负样本数据,用户对核心谓语的提取、释义提取、降噪处理等过程的算法(如:依存语法分析、短语树结构模型、专家规则库、分类器等算法)进行优化训练。优化训练后的算法可以用在后续词语释义确定的过程中,如:当用户B请求获取“人工智能”的词语释义时,可以利用优化后的算法,利用上述实施例的方法进行确定。
本说明书实施例可以充分调动用户的参与性,将使用者和建设者角色合一,通过选举机制进行知识优选,优化算法,从而建立一套可持续运作、不断丰富和完善的百科系统,解决了百科系统持续运维的投入成本和时间代价。
在上述实施例的基础上,本说明书一些实施例中,所述方法还可以包括:
将所述准确性排序在预设名次内的目标词语释义作为所述第一待释义词语的词语释义。
在具体的实施过程中,可以根据用户的反馈信息不断优化目标词语释义,将用户反馈准确性比较高的目标词语释义保存(如:保存准确性排序在预设名次内的目标词语释义),当有新的释义请求,请求获取第一待释义词语的词语释义时,可以将保存的优选的目标词语释义直接返回给用户。
例如:上述实施例中多个用户请求获取“绿色信贷”的词语释义,根据用户的反馈对目标词语释义进行排序后,确定排在前5名的目标词语释义为“绿色信贷”的词语释义。当之后有新的请求,请求获取“绿色信贷”的词语释义时,可以直接只反馈排在前5名的目标词语释义作为最终的确定结果。当然,也可以将根据用户的反馈信息,确定出各个目标词语释义的准确率或点击率,在有新的请求获取“绿色信贷”的词语释义时,将原先确定出的15个目标词语释义按照准确率或点击率由高到低,展示在反馈界面中,反馈给用户,还可以在每个目标词语释义后标注该目标词语释义的准确率或点击率,以便用户快速选择自己满意的答案。
本说明书实施例,根据用户的反馈信息,将用户反馈的准确率或点击率比较高的目标词语释义返回给用户,作为第一待释义词语的词语释义,缩小了反馈信息的信息量,方便用户查看,并且给予用户的反馈信息选择的词语释义,准确性更高,更符合用户的需求。
图2是本说明书又一个实施例中词语释义确定的数据处理方法的流程框架示意图,下面结合图2具体介绍本说明书实施例中词语释义确定的过程:
如图2所示,本说明书实施例中的词语释义确定整个流程可以包括:1、接收释义请求;2、信息初筛;3、释义提取(将疑似释义部分抽取出来);4、结果降噪(将非释义部分过滤,保留释义内容);5、释义优选(获取最优释义)。具体地,首先根据用户输入的释义词语,结合信息检索装置201,从各类资讯信息中获取第一步结果初筛。信息检索装置中可以保存专业词库用于对获取到的语料信息进行分词索引,作为释义的主要信息来源。在完成信息初筛后,进入释义提取。释义提取主要完成两部分工作:(1)调用释义提取模型装置202(释义提取模型装置中可以包括依存语法模型或其他能够进行核心谓语的提取的模型)的算法模型完成短语抽取,(2)调用短语结构树装置203(短语结构树装置中可以包括短语结构树模型)完成释义部分解析和抽取。抽取完成的词语释义可能包含较多的相近解释和干扰解释,该部分结果将通过噪声消除装置204(噪声消除装置卡可以包括用户进行噪声处理的算法如:分类器、依存语法等)完成降噪,最后输出较为理想的词语释义。上述结果最后可以进行最佳释义选举,并将最佳结果保存,同时作为训练结果集优化释义提取的算法。
图3是本说明书实施例中信息初筛阶段的流程示意图,如图3所示,系统通过分词词库301对语料信息进行分词,形成分词索引302。303、经对语料信息进行查重、合并,将相近的语料信息进行过滤;304、再将过滤后的语料中信息的信息片段抽取为片段结果集。例如,将某新闻语料中关于“绿色信贷”关键词上下文的完整句式抽取为片段,形成结果集。
图4是本说明书实施例中释义提取过程的流程示意图,如图4所示,401、释义提取过程首先识别片段结果集中的核心谓语,核心谓语主要由依存语法模型404、概率模型405完成识别。402、完成谓语抽取后,再进入下一步短语抽取,利用短语树模型存储装置406中预存的句型模型进行语句拆解,403、再将片段集中的释义部分解析出,形成释义集合。例如:根据百科类信息的依存语法分析,其核心谓语包含:“称为”、“作为”、“是指”、“表明”等。对于下列句型“绿色信贷常被称为可持续融资或环境融资,即通过调配贷款手段刺激可持续发展。”满足“名词+核心谓语”的句型,其核心词为“称为”,可作为核心谓语进行提取,“称为”后面的“可持续融资”和“环境融资”可以作为“绿色信贷”的释义进行提取。
图5是本说明书实施例中释义集合降噪处理的流程示意图,可以将非释义部分剔除,该流程主要包含机器学习装置501、干扰句存储装置502、相似度匹配装置503、日志存储装置504。其中,机器学习装置501可以用户训练干扰句存储装置502中的专家经验规则的特征提取模型以及分类器。图4输出的释义集合可以输入分类器中,结合提取出的特征编码完成释义分类,将非释义部分剔除。例如:将“绿色信贷是一种金融工具”、“绿色信贷是低风险的”两句语料作为分类器的输入,得到第一个结果为真,第二个结果为假,即“绿色信贷是低风险的”结果被剔除,其并不符合释义特征。
对于剩余结果再结合依存语法分析及干扰句存储装置402中的句法部分再次进行相似度匹配,将匹配上的非释义结果做二次剔除,形成较为优选的词语释义。例如:“商业银行都将绿色信贷作为学习榜样”,其中核心词为“作为”,修饰词为“榜样”,根据经验规则,此依存关系出现后,使得该句型成为解释性释义的概率较低,可认为是无效解释,予以剔除。上述处理过程将记录在日志存储装置404中,用于对上述降噪处理过程中的算法进行强化训练。
图6是本说明书实施例中的词语释义优化的流程示意图,601、通过将降噪之后的释义结果进行最优选择,如:根据用户的反馈信息对释义结果进行优选,使用者根据系统推荐的释义采用选举方式进行优化迭代。602、将选举结果进行存储,有新的释义请求,请求获取第一待释义词语的词语释义时,可以将存储的优选的词语释义返回给用户。优选的释义内容可以作为正向语料输入机器学习装置501,纠正正向特征。较低排序的释义内容可以作为反向预料输入机器学习装置501,纠正反向特征,再输入依存语法分析装置404获得反向依存语法,保存至干扰句存储装置502。
本说明书实施例,将使用者和建设者角色合一,通过专家系统进行知识提纯,通过选举机制进行知识优选,从而建立一套可持续运作、不断丰富和完善的百科系统,解决了百科系统持续运维的投入成本和时间代价。通过建立专家系统,解决人力成本和时效性问题,在使用的过程中完成词库的建设和完善,提高了名词释义的采集速度。通过降噪手段滤除大部分不恰当的释义,结合使用者参与选举的方式,在使用的过程中完成了对名词释义的优选,提高了释义的准确性。通过服务化方式,将名词释义服务嵌入我行各业务系统和功能模块,提供普适性、便捷性的基础服务,提高系统的使用体验,提供了通用化的名词释义。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
基于上述所述的词语释义确定方法,本说明书一个或多个实施例还提供一种词语释义确定方法装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图7是本说明书一个实施例中词语释义确定装置的结构示意图,本说明书实施例中的词语释义确定装置可以是设置能够与用户进行对话的终端或能够实现其功能的设备中,本说明书实施例不作具体限定。如图7所示,本说明书实施例中一种词语释义确定装置可以包括:语料获取单元71、核心谓语提取单元72、释义提取单元73、释义降噪单元74,其中:
语料获取单元71,可以用于获取第一待释义词语的语料信息集合;
核心谓语提取单元72,可以用于提取所述语料信息集合中的语料信息的核心谓语;
释义提取单元73,可以用于对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
释义降噪单元74,可以用于对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
本说明书实施例提供的词语释义确定装置,利用各类资讯信息获取待释义词语对应的语料信息集合,再对语料信息集合中的语料信息进行核心谓语提取和释义提取,核心谓语的提取,为后续释义提取进行了信息的筛选和数据准备,提高释义提取的效率和准确性。再对提取出的释义集合进行降噪处理,剔除不符合释义要求的词语释义,获得待释义词语的目标词语释义,提高词语释义的准确性。本说明书实施例基于大数据分析,实现了词语释义的自动确定,不需要人工整理,提高了词语释义确定的时效性和准确性。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种词语释义确定数据处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例的词语释义确定方法,如:
获取第一待释义词语的语料信息集合;
提取所述语料信息集合中的语料信息的核心谓语;
对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
需要说明的,上述所述的终端设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
在上述实施例的基础上,本说明书一个实施例中还可以提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述实施例中词语释义确定方法,如:
获取第一待释义词语的语料信息集合;
提取所述语料信息集合中的语料信息的核心谓语;
对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的,上述所述的计算机可读存储介质根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
图8是本说明书一个实施例中词语释义确定系统的结构示意图,如图8所示,本说明书实施例中的词语释义确定系统可以是一种百科系统,具体可以包括信息检索装置81、释义提取模型装置82、噪声消除装置83、释义优选装置84,其中:
信息检索装置81,用于接收待释义词语,获取所述待释义词语的语料信息,并对语料信息进行初步筛选,获得语料信息集合;
释义提取模型装置82,用于利用依存语法模型对所述语料信息集合中的语料信息进行核心谓语提取,并利用短语树结构模型对带有核心谓语的语料信息进行释义提取,获得释义集合;
噪声消除装置83,用于利用机器学习模型对释义集合中的词语释义进行分类,获得词语释义类别集合和非释义类别集合,并利用与存储的句法对词语释义类别集合中的词语释义进行相似度匹配,删除不符合相似度要求的词语释义,获得释义集合,将所述释义集合中的词语释义反馈给用户;
释义优选装置84,用于基于用户的反馈信息对所述释义集合中的词语释义进行排序,将排序在预设名次内的词语释义作为所述机器学习模型的正样本数据,将排序在预设名次外的词语释义作为所述机器学习模型和所述依存语法模型的负样本数据。
其中,信息检索装置81、释义提取模型装置82、噪声消除装置83、释义优选装置84的具体作用可以参考上述方法部分实施例的记载,此处不再赘述。
本说明书提供的风险防控系统可以为单独的词语释义确定系统,也可以应用在多种数据分析处理系统中。所述系统可以包括上述实施例中任意一个词语释义确定装置。所述的系统可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图9是本说明书实施例中词语释义确定服务器的硬件结构框图。如图9所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图9中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图9所示不同的配置。
存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的风险防控方法对应的程序指令/模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。
本说明书实施例提供的上述风险防控方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、处理设备、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (11)

1.一种词语释义确定方法,其特征在于,所述方法包括:
获取第一待释义词语的语料信息集合;
提取所述语料信息集合中的语料信息的核心谓语;
对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
2.根据权利要求1所述的方法,其特征在于,所述对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义,包括:
对所述释义集合中的词语释义进行特征提取;
根据提取出的特征,利用分类器,对所述词语释义进行分类,获得词语释义类别集合和非释义类别集合;
将所述词语释义类别集合中的词语释义与预先设置的句法进行相似度匹配,将不符合相似度要求的词语释义删除,获得所述目标词语释义。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
保存对释义集合中的词语释义进行降噪的日志记录数据;
将所述日志记录数据作为词语释义的分类以及句法相似度匹配的样本数据,优化所述分类器和所述句法相似度匹配的算法。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
保存用户对所述目标词语释义的反馈信息;
根据所述反馈信息确定所述目标词语释义的准确性排序;
将准确性排序在预设名次内的目标词语释义作为正样本数据;
将准确性排序在预设名次外的目标词语释义作为负样本数据;
将所述正样本数据、负样本数据作为核心谓语提取、词语释义降噪的样本数据,用于第二待释义词语的释义确定。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述准确性排序在预设名次内的目标词语释义作为所述第一待释义词语的词语释义。
6.根据权利要求1所述的方法,其特征在于,所述获取第一待释义词语的语料信息集合,包括:
获取与所述第一待释义词语相关联的语料信息,对所述语料信息进行分词、查重、合并,获得所述语料信息集合。
7.根据权利要求1所述的方法,其特征在于,对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合,包括:
利用短语结构树模型对带有核心谓语的语料信息进行释义提取,提取出所述带有核心谓语的语料信息中的宾语信息;
将所述宾语信息作为所述第一待释义词语的词语释义,获得所述释义集合。
8.一种词语释义确定装置,其特征在于,所述装置包括:
语料获取单元,用于获取第一待释义词语的语料信息集合;
核心谓语提取单元,用于提取所述语料信息集合中的语料信息的核心谓语;
释义提取单元,用于对带有核心谓语的语料信息进行释义提取,获得所述第一待释义词语的释义集合;
释义降噪单元,用于对释义集合中的词语释义进行降噪,删除不符合释义要求的词语释义,获得所述第一待释义词语的目标词语释义。
9.一种词语释义确定数据处理设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1-7任一项所述方法的步骤。
11.一种词语释义确定系统,其特征在于,包括:
信息检索装置,用于接收待释义词语,获取所述待释义词语的语料信息,并对语料信息进行初步筛选,获得语料信息集合;
释义提取模型装置,用于利用依存语法模型对所述语料信息集合中的语料信息进行核心谓语提取,并利用短语树结构模型对带有核心谓语的语料信息进行释义提取,获得释义集合;
噪声消除装置,用于利用机器学习模型对释义集合中的词语释义进行分类,获得词语释义类别集合和非释义类别集合,并利用与存储的句法对词语释义类别集合中的词语释义进行相似度匹配,删除不符合相似度要求的词语释义,获得释义集合,将所述释义集合中的词语释义反馈给用户;
释义优选装置,用于基于用户的反馈信息对所述释义集合中的词语释义进行排序,将排序在预设名次内的词语释义作为所述机器学习模型的正样本数据,将排序在预设名次外的词语释义作为所述机器学习模型和所述依存语法模型的负样本数据。
CN201910694633.XA 2019-07-30 2019-07-30 一种词语释义确定方法、装置及系统 Active CN110413757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910694633.XA CN110413757B (zh) 2019-07-30 2019-07-30 一种词语释义确定方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910694633.XA CN110413757B (zh) 2019-07-30 2019-07-30 一种词语释义确定方法、装置及系统

Publications (2)

Publication Number Publication Date
CN110413757A true CN110413757A (zh) 2019-11-05
CN110413757B CN110413757B (zh) 2022-02-25

Family

ID=68364203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910694633.XA Active CN110413757B (zh) 2019-07-30 2019-07-30 一种词语释义确定方法、装置及系统

Country Status (1)

Country Link
CN (1) CN110413757B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522957A (zh) * 2020-05-09 2020-08-11 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN112417256A (zh) * 2020-10-20 2021-02-26 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522957A (zh) * 2020-05-09 2020-08-11 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN111522957B (zh) * 2020-05-09 2023-05-12 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN112417256A (zh) * 2020-10-20 2021-02-26 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法

Also Published As

Publication number Publication date
CN110413757B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
CN110188331A (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN110399609B (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN107169049A (zh) 应用的标签信息生成方法及装置
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
Wang et al. DuSQL: A large-scale and pragmatic Chinese text-to-SQL dataset
CN105843875A (zh) 一种面向智能机器人的问答数据处理方法及装置
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN109408811A (zh) 一种数据处理方法及服务器
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
US20220366127A1 (en) Legal Document Generation
CN112528031A (zh) 一种工单智能派发方法和系统
CN112052317A (zh) 一种基于深度学习的医学知识库智能检索系统及其方法
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN111400449B (zh) 一种正则表达式抽取方法及装置
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN110807323A (zh) 情绪向量的生成方法及装置
CN110880142A (zh) 一种风险实体获取方法及装置
CN110413757A (zh) 一种词语释义确定方法、装置及系统
CN112287656A (zh) 文本比对方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant