CN106682224B

CN106682224B - 一种数据录入方法、系统及数据库

Info

Publication number: CN106682224B
Application number: CN201710004906.4A
Authority: CN
Inventors: 程新; 胡晟; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2017-01-04
Filing date: 2017-01-04
Publication date: 2020-08-28
Anticipated expiration: 2037-01-04
Also published as: CN106682224A

Abstract

一种数据录入方法、系统及数据库，所述录入方法包括：对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库。所述录入方法、系统可以提升录入效率。

Description

一种数据录入方法、系统及数据库

技术领域

本发明涉及信息技术领域，尤其涉及一种数据录入方法、系统及数据库。

背景技术

随着信息技术的发展，信息汇集与处理在各个领域的应用越来越广泛，信息的汇集和处理通常基于数据库进行。如何建立和维护数据库，或换言之，如何高效的对数据库进行数据录入，成为亟待解决的问题。

但是，现有的数据库录入方法的效率较低。

发明内容

本发明解决的技术问题是提升录入方法的录入效率。

为解决上述技术问题，本发明实施例提供一种数据录入方法，包括：对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库。

可选的，若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则生成提醒信息以对录入数据的用户进行提醒。

可选的，所述知识点包括标准问和扩展问；所述数据录入方法还包括：若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。

可选的，所述知识点包括特征语句和解释语句，所述待录入语句仅包括特征语句；根据所述待录入语句生成新的知识点录入所述数据库，包括：根据所述待录入语句的特征语句生成新的知识点的特征语句；录入所述新的知识点的特征语句至数据库；提醒录入数据的用户输入所述新的知识点的解释语句。

可选的，所述知识点包括特征语句和解释语句，所述待录入语句包括特征语句和解释语句；根据所述待录入语句生成新的知识点录入所述数据库，包括：拆分所述待录入语句中的特征语句和解释语句，将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句，将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。

可选的，进行语义相似度计算之前还包括：提取所述待录入语句中的特征语句的关键词组，以得到待录入关键词组；提取所述数据库中的语句的关键词组，以得到已有关键词组；当所述已有关键词组中未包括所述待录入关键词组时，执行所述语义相似度计算。

可选的，当所述已有关键词组中未包含所述待录入关键词组时，则生成提醒信息以对录入数据的用户进行提醒。

可选的，通过爬虫爬取的数据生成所述待录入语句，或基于人工客服问答语句生成所述待录入语句。

可选的，所述进行语义相似度计算包括：对所述待录入语句中的特征语句进行分词处理，以得到分词后的词语；根据对待录入语句中的特征语句的语义影响值，对所述分词后的词语进行筛选，以得到筛选后的词语；匹配所述筛选后的词语和所述知识点中的语义表达式，以得到所述语义相似度。

可选的，根据对待录入语句的语义影响值对所述分词后的词语进行筛选包括：去除语气词以及助词。

本发明实施例还包括一种数据录入系统，包括：语义相似度计算单元，适于对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；新的知识点录入单元，适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库。

可选的，所述的数据录入系统还包括：第一提醒单元，适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则生成提醒信息以对录入数据的用户进行提醒。

可选的，所述知识点包括标准问和扩展问；所述数据录入系统还包括扩展问录入单元，适于若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。

可选的，所述知识点包括特征语句和解释语句，所述待录入语句仅包括特征语句；所述新的知识点录入单元，包括：新的知识点的特征语句生成子单元，适于根据所述待录入语句的特征语句生成新的知识点的特征语句；新的知识点的特征语句录入子单元，适于录入所述新的知识点的特征语句至数据库；解释语句提醒子单元，适于提醒录入数据的用户输入所述新的知识点的解释语句。

可选的，所述知识点包括特征语句和解释语句，所述待录入语句包括特征语句和解释语句；所述新的知识点录入单元适于：拆分所述待录入语句中的特征语句和解释语句，将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句，将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。

可选的，所述数据录入系统还包括：待录入关键词组提取单元，适于进行语义相似度计算之前提取所述待录入语句中的特征语句的关键词组，以得到待录入关键词组；已有关键词组提取单元，适于提取所述数据库中的语句的关键词组，以得到已有关键词组；执行单元，适于当所述已有关键词组中未包括所述待录入关键词组时，执行所述语义相似度计算。

可选的，所述的数据录入系统还包括：第二提醒单元，适于当所述已有关键词组中未包含所述待录入关键词组时，则生成提醒信息以对录入数据的用户进行提醒。

可选的，所述语义相似度计算单元包括：分词处理子单元，适于对所述待录入语句中的特征语句进行分词处理，以得到分词后的词语；筛选子单元，适于根据对待录入语句中的特征语句的语义影响值，对所述分词后的词语进行筛选，以得到筛选后的词语；匹配子单元，适于匹配所述筛选后的词语和所述知识点中的语义表达式，以得到所述语义相似度。

可选的，所述筛选子单元适于去除语气词以及助词。

本发明实施例还提供一种数据库，所述数据库包括知识点，且所述数据库中的知识点的至少一部分通过任一项所述的数据录入方法录入，所述数据库用于支持智能交互过程。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，由于特征语句用于标识待录入语句，故通过比较待录入语句和数据库中的语句的语义相似度，即可确定数据库中是否已包含与待录入语句对应的知识点。当待录入语句的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值时，表明数据库中未包含与待录入语句对应的知识点，此时根据待录入语句生成新的知识点录入数据库，可以对数据库进行完善，并且避免重复录入，进而可以数据库中知识点的重复。避免重复录入也可以提升数据录入方法的录入效率。

进一步，若所述特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则说明数据库中可能包含与待录入语句对应的知识点，此时生成提醒信息对录入数据的用户进行提醒，可以为录入用户提供更加多样化的选择。在自然语言处理领域，自然人对语义的判断通常比程序化的判断更准确，故通过提醒录入数据的用户，由录入数据的用户基于提醒进行再次判断，录入用户可以选择继续录入待录入语句，或可以放弃录入待录入语句，故即可以避免知识点的重复录入，也可以避免知识点录入的遗漏。

另外，由于在交互过程中，向用户返回的答句是依据数据库中的知识点生成的，若数据库中包含多个内容相似或重复的知识点，则在生成答句时，需要对具体依据的知识点进行进一步判断，效率较低。故利用以本发明实施例的录入方法维护或建立的数据库对人机交互过程进行支持时，由于本发明实施例中的数据录入方法可以避免重复录入，故可以减少数据库中知识点的重复，进而可以提升人机交互过程的效率。

附图说明

图1是本发明实施例中一种数据录入方法的流程图；

图2是本发明实施例中一种语义相似度计算方法的流程图；

图3是本发明实施例中另一种数据录入方法的流程图；

图4是本发明实施例中又一种数据录入方法的流程图；

图5是本发明实施例中一种数据录入系统的结构示意图；

图6是图5中语义相似度计算单元51的一种具体实施的结构示意图。

具体实施方式

如前所述，随着信息技术的发展，信息汇集与处理在各个领域的应用越来越广泛，信息的汇集和处理通常基于数据库进行。如何建立和维护数据库，或换言之，如何高效的对数据库进行数据录入，成为亟待解决的问题。但是，现有的数据库录入方法的效率依然有待提高。

在本发明实施例中，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，由于特征语句用于标识待录入语句，故通过比较待录入语句和数据库中的语句的语义相似度，即可确定数据库中是否已包含与待录入语句对应的知识点。

当待录入语句的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值时，说明数据库中未包含与待录入语句对应的知识点，此时对根据待录入语句生成新的知识点录入数据库，可以对数据库进行完善，并且避免重复录入，进而可以数据库中知识点的重复。避免重复录入也可以提升数据录入方法的录入效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中一种数据录入方法的流程图，可以包括如下步骤：

步骤S11，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；

步骤S12，若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库。

其中，待录入语句的录入目标为数据库，待录入语句可以基于智能交互过程中的数据生成，例如可以基于爬虫爬取的语句生成，或者也可以基于人工客服问答语句生成所述待录入语句，即将爬虫爬取的语句或者人工客服问答语句以预定的格式整理生成待录入语句。

特征语句用于标识待录入语句，待录入语句中可以仅包含特征语句，也可以包含特征语句和解释语句。特征语句通常可以是问句，解释语句通常可以是答句。例如，特征语句可以是“开通彩铃”，解释语句可以是开通彩铃的具体方式、彩铃的资费标准等。

可以看出，本发明实施例中的问句并不局限于语言学意义的问句，而是以智能交互过程为参照，将智能交互过程中通常由用户输入的句子作为问句，对用户的智能回复为答句。

本发明实施例中的数据库，即可以是支持上述智能交互过程的数据库，类似地，该数据库中存储的知识点同样可以分为特征语句和解释语句，本发明实施例中的数据录入方法可以是在对支持智能交互过程的数据库建立或维护过程中的录入方法。

待录入语句中特征语句的确定，可以采用多样的方式进行，例如待录入语句可以符合预设的格式，依据预设的格式可以识别特征语句，或者也可以利用语义识别的方式确定特征语句，或者也可以采用本领域技术人员可以实现的其他方式进行特征语句的确定。

数据库中的语句指的是数据库中的已有语句，由于特征语句用于标识待录入语句，故通过比较待录入语句和数据库中的语句的语义相似度，可判断数据库中是否已包含与待录入语句对应的知识点。当待录入语句的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值时，说明数据库中未包含与待录入语句对应的知识点，此时对根据待录入语句生成新的知识点录入数据库，可以对数据库进行完善，并且避免数据库中知识点的重复。避免重复录入也可以提升数据录入方法的录入效率。

在步骤S11的具体实施中，对待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，可以是与数据库中的全部或部分语句进行相似度计算。例如，可以是仅与数据库中的特征语句进行相似度计算，当数据库的知识点中包含特征语句以及扩展语句时，也可以与数据库中的特征语句以及扩展语句进行相似度计算，或者也可以与数据库中的全部语句进行相似度计算。

当计算待录入语句中的特征语句与数据库中的部分语句的相似度时，计算量较小，单次录入过程耗时较短，效率较高。

虽然待录入语句中和数据库的知识点中，均可以包含特征语句，但对应相同的知识点的特征语句可能是不同的，故计算与数据库中的全部语句的相似度时，对数据库中是否已包含待录入语句对应的知识点较为全面，可以更加准确的避免重复录入和避免数据库中知识点的重复，有助于提升数据库进行建立和维护的过程的总体效率。

故进行数据库的维护或建立的用户可以根据数据库的实际情况和应用需求，选择与所述数据库中的全部或部分语句进行相似度计算。

图2示出了本发明实施例中一种语义相似度计算方法，具体包括如下步骤：

步骤S21，对所述待录入语句进行分词处理，以得到分词后的词语；

步骤S22，根据对待录入语句的语义影响值对所述分词后的词语进行筛选，以得到筛选后的词语；

步骤S23，匹配所述筛选后的词语和所述知识点中的语义表达式，以得到所述语义相似度。

以下对步骤S21至步骤S23的具体实施进行进一步说明：

步骤S21中的分词处理可以采用本领域技术人员可以实施的各种分词方法，在此不做限制。

在步骤S22的具体实施中，可以去除语气词以及助词以完成筛选，也可以基于预设的词库进行筛选。

数据库中知识点的特征语句可以包含标准问以及标准问的扩展问，标准问为用来表示某个知识点的文字，主要目标是表达清晰，便于维护。如“彩铃的资费”就是表达清晰的标准问描述。扩展问可以是步骤S23中的语义表达式的形式，也可以是普通语句的形式。在进行相似度计算时，可以是计算待录入语句中的特征语句与数据库中的特征语句的相似度，即，可以是计算待录入语句中的特征语句与标准问的相似度，也可以是计算待录入语句中的特征语句与扩展问的相似度，当扩展问的形式为语义表达式时，即可采用步骤S21至步骤S23进行语义相似度的计算。

语义表达式可以由词语、词语的词类以及它们的“或”关系构成。词类可以为一组有共性的词，这些词在语义上可以相似也可以不相似，这些词也可以被标注为重要或不重要。词类中包括的词通常是预设的。

语义表达式与待匹配句子的关系与传统的模板匹配有了很大的不同，在传统模板匹配中，模板和待匹配句子只是匹配与未匹配的关系，而语义表达式与待匹配句子之间关系是通过量化的值(相似度)来表示。

语义表达式可以用预设的不同的符号来标识词类、词类的重要性、词类之间的顺序限定等等，以进行更为准确的相似度计算。

例如，可以利用“[]”标识词类，出现在“[]”中的词为词类，例如简单语义表达式可以如下：[飞信][如何][开通]、[飞信]的[登录][方法]。

可以用(|)表示或的关系，在方括号中的词类可以通过“或”关系出现多次，这些“或”关系的词类会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是根据“或”的意义将语义表达式展开成多个简单表达式的过程。如：[彩铃][开通]的[方法|步骤]可展开成“[彩铃][开通]的[步骤]”和“[彩铃][开通]的[方法]”两个简单的语义表达式。

可以在“[]”内的词类的结尾加入“？”表示可出现也可以不出现，即非必要的关系，这种非必要关系的词类也同样会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是将语义表达式中含有非必要的词类(或词类的“或组合”)展开成包含和不包含这个词类的两个简单语义表达式的过程。

例如：[介绍][手机视频][军事栏目][内容][什么？]可展开成“[介绍][手机视频][军事栏目][内容]”和“[介绍][手机视频][军事栏目][内容][什么]”。

语义表达式可以利用预设的符号可以表达语义增强，例如可以利用“&”表示，在语义表达式的最左边出现“&”符号，可以在相似度计算中提高语义表达式内词类的权重。这类语义表达式往往可忽略语义表达式中更多的词，匹配范围可以更广泛。这类语义表达式的示例如下：&[手机视频][优惠包|优惠]、&[全网音乐盒][星光熠熠][1元][套餐]、&[17951][移动IP电话][业务？]、&[IP？][直通车][业务？]。

语义表达式可以利用预设的符号来表达有序，例如可以利用“()”。多个词按照不同的顺序排列组合在一起后所表达的语义可能会是同一个意思，也可能是完全不同的意思。如下：“怎么办理彩铃”和“彩铃怎么办理”所表达的语义都是彩铃的办理方法。我们可以将语义表达式写成[怎么][办理][彩铃]，这个语义表达式包含上述的两种问法。

但是“美元兑换人民币汇率”和“人民币兑换美元汇率”用同样的词所组成，但是所表达的语义却是不同的，在智能交互过程中需要针对这两个问题给出正确的回复。那此时需要使用()来表示词的有序组合的语义。如上述：美元兑换人民币汇率的语义表达式为([美元][兑换][人民币])[汇率]人民币兑换美元汇率的语义表达式为([人民币][兑换][美元])[汇率]

语义表达式也可以利用预设的符号表示局部加强词类权重，例如可以利用“*”，以如下格式进行：“[]*”,将“*”前“[]”内的词类标注为重点词。

语义表达式还可以利用预设的符号表示命名实体，命令实体为系统在实体识别过程中提取的语义信息，可以看作是一种特殊的词类，但这种词类一般都是一个无限集合，比如时间、手机号码等，这些词类并不是词类库中存在的词类，因此为了区分和普通词类的区别，可以在“[]”中词类的前边加上“@”符号表示。这类语义表达式的示例如下：[查询][@手机号码][归属地]、[@时间]是[农历][几号]、[计算][@表达式]等于多少[查询][@月份]的[话费]。

通过对比待录入语句中的特征语句与语义表达式，可以更为精确的得到所述语义相似度。

继续参照图1，本发明实施例中的数据录入方法还可以包括：

步骤S13，若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则生成提醒信息以对录入数据的用户进行提醒。

若所述特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则说明数据库中可能包含与待录入语句对应的知识点，此时生成提醒信息对录入数据的用户进行提醒，可以为录入用户提供更加多样化的选择。

在自然语言处理领域，自然人对语义的判断通常比程序化的判断更准确，故通过提醒录入数据的用户，由录入数据的用户基于提醒进行再次判断，录入用户可以选择继续录入待录入语句，或可以放弃录入待录入语句，故既可以避免知识点的重复录入，也可以避免知识点录入的遗漏。

提醒信息可以简单提醒录入数据的用户数据库中已包含该知识点，或者也可以生成可选的下步操作的提醒信息。

例如，可以提供录入用户放弃录入的选择，或者也可以提供用户继续进行录入操作的选择。

当知识点包括标准问和扩展问时，也可以生成提醒信息，以提示用户将所述待录入语句中的特征语句作为数据库中与所述待录入语句的待录入语句的语义相似度最高的标准问的扩展问。数据库中的特征语句中可以包含上述标准问和扩展问。

可以理解的是，若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，也可以不经提醒，直接将所述待录入语句中的特征语句作为数据库中与所述待录入语句的待录入语句的语义相似度最高的标准问的扩展问。

如前所述，知识点可以包括特征语句和解释语句，在本发明一实施例中，待录入语句中仅包含特征语句时，可以依照如下步骤进行数据录入(参见图3)：

步骤S31，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；

步骤S32，若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句的特征语句生成新的知识点的特征语句；

步骤S33，录入所述新的知识点的特征语句至数据库；

步骤S34，提醒录入数据的用户输入所述新的知识点的解释语句。

其中，步骤S31的具体实现以及步骤S32中对相似度的判断，可以参照图1中的步骤S11和步骤S12，在此不再赘述。

生成的新的知识点的特征语句可以与待录入语句中的特征语句相同，或者也可以不同于录入语句中的特征语句，可以按照数据库知识点的特征语句的需求进行。

在录入所述新的知识点的特征语句至数据库后，提醒录入数据的用户输入的新的知识点的解释语句，可以减少知识点中仅包含特征语句，而无对应的解释语句的情形。

在本发明另一实施例中，知识点包括特征语句和解释语句，所述待录入语句包括特征语句和解释语句，则图1中步骤S12中的根据所述待录入语句生成新的知识点录入所述数据库可以包括：

拆分所述待录入语句中的特征语句和解释语句，将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句，将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。

图4是本发明实施例中另一种数据录入方法的流程图，包括步骤S41至步骤S46。

在步骤S41中，提取所述待录入语句中的特征语句的关键词组，以得到待录入关键词组；

在步骤S42中，提取所述数据库中的语句的关键词组，以得到已有关键词组；

在步骤S43中，判断已有关键词组中是否包括所述待录入关键词组，当所述已有关键词组中未包括所述待录入关键词组时，执行步骤S44；

在步骤S44中，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；

在步骤S45中，若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库。

步骤S44以及步骤S45的具体实现可以参照图1中步骤S11和步骤S12，在此不再赘述。

在具体实施中，当在步骤S43中判断所述已有关键词组中包括所述待录入关键词组时，则可以执行步骤S46，生成提醒信息以对录入数据的用户进行提醒。

在步骤S46的具体实施中，生成提醒信息以对录入数据的用户进行提醒可以包括提醒用户待录入语句中的特征语句已重复，也可以包括提醒用户选择是否将待录入语句作为与数据库中最大语义相似度的标准问的扩展问进行录入。

在本发明实施例中，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，由于特征语句用于标识待录入语句，故通过比较待录入语句和数据库中的语句的语义相似度，即可确定数据库中是否已包含与待录入语句对应的知识点。当待录入语句的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值时，说明数据库中未包含与待录入语句对应的知识点，此时对根据待录入语句生成新的知识点录入数据库，可以对数据库进行完善，并且避免重复录入，进而可以数据库中知识点的重复。避免重复录入也可以提升数据录入方法的录入效率。

本发明实施例还提供一种数据录入系统，其结构示意图参见图5，具体可以包括：

语义相似度计算单元51，适于对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；

新的知识点录入单元52，适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库。

对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，由于特征语句用于标识待录入语句，故通过比较待录入语句和数据库中的语句的语义相似度，即可确定数据库中是否已包含与待录入语句对应的知识点。当待录入语句的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值时，说明数据库中未包含与待录入语句对应的知识点，此时对根据待录入语句生成新的知识点录入数据库，可以对数据库进行完善，并且避免重复录入，进而可以数据库中知识点的重复。避免重复录入也可以提升数据录入方法的录入效率。

在具体实施中，所述数据录入系统还可以包括：第一提醒单元53，适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则生成提醒信息以对录入数据的用户进行提醒。

若所述特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则说明数据库中可能包含与待录入语句对应的知识点，此时生成提醒信息对录入数据的用户进行提醒，可以为录入用户提供更加多样化的选择。在自然语言处理领域，自然人对语义的判断通常比程序化的判断更准确，故通过提醒录入数据的用户，由录入数据的用户基于提醒进行再次判断，录入用户可以选择继续录入待录入语句，或可以放弃录入待录入语句，故即可以避免知识点的重复录入，也可以避免知识点录入的遗漏。

在具体实施中，所述知识点可以包括标准问和扩展问；所述数据录入系统还可以包括扩展问录入单元54，适于若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。

在具体实施中，所述知识点可以包括特征语句和解释语句，所述待录入语句仅包括特征语句；所述新的知识点录入单元52可以包括：

新的知识点的特征语句生成子单元，适于根据所述待录入语句的特征语句生成新的知识点的特征语句；

新的知识点的特征语句录入子单元，适于录入所述新的知识点的特征语句至数据库；

解释语句提醒子单元，适于提醒录入数据的用户输入所述新的知识点的解释语句。

在具体实施中，所述知识点可以包括特征语句和解释语句，所述待录入语句包括特征语句和解释语句；所述新的知识点录入单元52适于：拆分所述待录入语句中的特征语句和解释语句，将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句，将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。

在具体实施中，数据录入系统还可以包括：

待录入关键词组提取单元55，适于进行语义相似度计算之前提取所述待录入语句中的特征语句的关键词组，以得到待录入关键词组；

已有关键词组提取单元57，适于提取所述数据库中的语句的关键词组，以得到已有关键词组；

执行单元56，适于当所述已有关键词组中未包括所述待录入关键词组时，执行所述语义相似度计算。

在具体实施中，数据录入系统还可以包括：第二提醒单元58，适于当所述已有关键词组中未包含所述待录入关键词组时，则生成提醒信息以对录入数据的用户进行提醒。

在具体实施中，可以通过爬虫爬取的数据生成所述待录入语句，或基于人工客服问答语句生成所述待录入语句。

参见图6，在具体实施中，图5中语义相似度计算单元51可以包括：

分词处理子单元61，适于对所述待录入语句中的特征语句进行分词处理，以得到分词后的词语；

筛选子单元62，适于根据对待录入语句中的特征语句的语义影响值，对所述分词后的词语进行筛选，以得到筛选后的词语；

匹配子单元63，适于匹配所述筛选后的词语和所述知识点中的语义表达式，以得到所述语义相似度。

在具体实施中，所述筛选子单元62适于去除语气词以及助词。

本发明实施例还提供一种数据库，所述数据库包括知识点，且所述数据库中的知识点的至少一部分通过前述的数据录入方法录入，所述数据库用于支持智能交互过程。

在自然语言处理系统中，若出现录入知识点存在意思相同但表述不同的情况，加载到引擎后，会造成引擎在匹配知识点无法区分正确的知识点情况，有概率给出错误的知识点回答，并会降低交互过程的效率，同时也会在维护上造成不使用者在编辑知识点时产生知识点建设重复，耗费人力。

故利用以本发明录入方法维护或建立的数据库对人机交互过程进行支持时，由于本发明实施例中的数据录入方法可以避免重复录入，故可以减少数据库中知识点的重复，进而可以提升人机交互过程的效率。

在新建数据库时，也即在数据库中未包含语句时，对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算的计算结果可以设为小于相似度阈值。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数据录入方法，其特征在于，包括：

对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；

若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库；

若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则生成提醒信息以对录入数据的用户进行提醒；所述提醒包括可选的下步操作的提醒信息；

进行语义相似度计算之前还包括：

提取所述待录入语句中的特征语句的关键词组，以得到待录入关键词组；

提取所述数据库中的语句的关键词组，以得到已有关键词组；

当所述已有关键词组中未包括所述待录入关键词组时，执行所述语义相似度计算；

当所述已有关键词组中包含所述待录入关键词组时，则生成提醒信息以对录入数据的用户进行提醒，包括提醒用户选择是否将待录入语句作为与数据库中最大语义相似度的标准问的扩展问进行录入；

所述知识点包括特征语句和解释语句，所述特征语句包括问句，所述解释语句包括答句，所述待录入语句仅包括特征语句；

根据所述待录入语句生成新的知识点录入所述数据库，包括：

根据所述待录入语句的特征语句生成新的知识点的特征语句；

录入所述新的知识点的特征语句至数据库；

提醒录入数据的用户输入所述新的知识点的解释语句；或

所述待录入语句包括特征语句和解释语句；

拆分所述待录入语句中的特征语句和解释语句，将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句，将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句；

所述进行语义相似度计算包括：

对所述待录入语句中的特征语句进行分词处理，以得到分词后的词语；

根据对待录入语句中的特征语句的语义影响值，对所述分词后的词语进行筛选，以得到筛选后的词语；

匹配所述筛选后的词语和所述知识点中的语义表达式，以得到所述语义相似度；

其中，所述语义表达式由所述筛选后的词语和所述知识点中的单词、所述单词的词类以及所述单词间的或关系构成。

2.根据权利要求1所述的数据录入方法，其特征在于，所述知识点包括标准问和扩展问；

所述数据录入方法还包括：若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。

3.根据权利要求1所述的数据录入方法，其特征在于，通过爬虫爬取的数据生成所述待录入语句，或基于人工客服问答语句生成所述待录入语句。

4.根据权利要求1所述的数据录入方法，其特征在于，根据对待录入语句的语义影响值对所述分词后的词语进行筛选包括：去除语气词以及助词。

5.一种数据录入系统，其特征在于，包括：

语义相似度计算单元，适于对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算，其中，所述数据库包括知识点，所述特征语句用于标识所述待录入语句；

新的知识点录入单元，适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值，则根据所述待录入语句生成新的知识点录入所述数据库；

第一提醒单元，适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则生成提醒信息以对录入数据的用户进行提醒；所述提醒包括可选的下步操作的提醒信息；

待录入关键词组提取单元，适于进行语义相似度计算之前提取所述待录入语句中的特征语句的关键词组，以得到待录入关键词组；

已有关键词组提取单元，适于提取所述数据库中的语句的关键词组，以得到已有关键词组；

执行单元，适于当所述已有关键词组中未包括所述待录入关键词组时，执行所述语义相似度计算；

第二提醒单元，适于当所述已有关键词组中包含所述待录入关键词组时，则生成提醒信息以对录入数据的用户进行提醒，包括提醒用户选择是否将待录入语句作为与数据库中最大语义相似度的标准问的扩展问进行录入；

所述新的知识点录入单元，包括：

解释语句提醒子单元，适于提醒录入数据的用户输入所述新的知识点的解释语句；或

所述待录入语句包括特征语句和解释语句；

所述新的知识点录入单元适于：拆分所述待录入语句中的特征语句和解释语句，将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句，将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句；

所述语义相似度计算单元包括：

分词处理子单元，适于对所述待录入语句中的特征语句进行分词处理，以得到分词后的词语；

筛选子单元，适于根据对待录入语句中的特征语句的语义影响值，对所述分词后的词语进行筛选，以得到筛选后的词语；

匹配子单元，适于匹配所述筛选后的词语和所述知识点中的语义表达式，以得到所述语义相似度；

6.根据权利要求5所述的数据录入系统，其特征在于，所述知识点包括标准问和扩展问；所述数据录入系统还包括扩展问录入单元，适于若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值，则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。

7.根据权利要求5所述的数据录入系统，其特征在于，通过爬虫爬取的数据生成所述待录入语句，或基于人工客服问答语句生成所述待录入语句。

8.根据权利要求5所述的数据录入系统，其特征在于，所述筛选子单元适于去除语气词以及助词。

9.一种数据库，其特征在于，所述数据库包括知识点，且所述数据库中的知识点的至少一部分通过如权利要求1至4任一项所述的数据录入方法录入，所述数据库用于支持智能交互过程。