CN107748784A - 一种通过自然语言实现结构化数据搜索的方法 - Google Patents

一种通过自然语言实现结构化数据搜索的方法 Download PDF

Info

Publication number
CN107748784A
CN107748784A CN201711015609.6A CN201711015609A CN107748784A CN 107748784 A CN107748784 A CN 107748784A CN 201711015609 A CN201711015609 A CN 201711015609A CN 107748784 A CN107748784 A CN 107748784A
Authority
CN
China
Prior art keywords
mrow
keyword
module
language
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711015609.6A
Other languages
English (en)
Other versions
CN107748784B (zh
Inventor
邢加和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sai Rui Information Polytron Technologies Inc
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711015609.6A priority Critical patent/CN107748784B/zh
Publication of CN107748784A publication Critical patent/CN107748784A/zh
Application granted granted Critical
Publication of CN107748784B publication Critical patent/CN107748784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种通过自然语言实现结构化数据搜索的方法,通过自然语言输入模块、语言解析模块、数据处理模块、输出模块实现,包括:自然语言输入模块接收用户输入的自然语言,所述自然语言为文字或语音;语言解析模块用于对所述自然语言进行解析,并将语言解析结果发送给数据处理模块;数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块;输出模块将接收到的输出结果进行输出。本发明提供的一种通过自然语言实现结构化数据搜索的方法,能够通过自然语言实现对结构化数据的搜索,降低了数据检索的技术门槛,提高了数据检索的效率。

Description

一种通过自然语言实现结构化数据搜索的方法
技术领域
本发明涉及信息检索领域,特别涉及一种通过自然语言实现结构化数据搜索的方法。
背景技术
目前,在结构化数据的搜索当中,仍然以编写SQL查询语句为主,对数据库的查询等操作需要操作人员具有对应软件方面的知识,熟悉数据库软件的操作,造成了数据库查询这种有较大需求的工作难以普及到个人,因此需要一种能够让不经过训练就可以对数据库进行查询的方法,用以降低数据库的使用门槛,提高数据库的使用范围。
发明内容
为解决以上问题,本发明提供一种通过自然语言实现结构化数据搜索的方法。
本发明提供的一种通过自然语言实现结构化数据搜索的方法,通过自然语言输入模块、语言解析模块、数据处理模块、输出模块实现,包括:
自然语言输入模块接收用户输入的自然语言,所述自然语言为文字或语音;
语言解析模块用于对所述自然语言进行解析,并将语言解析结果发送给数据处理模块;
数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块,所述操作包括查询操作;
输出模块将接收到的输出结果进行输出。
优选的,所述查询操作,对待检索的结构化数据执行查询操作(结构化数据包括:文本文件、数据库表等),所述查询操作实施为先根据输入的自然语言中过滤条件筛选出相应的行,再根据输入的自然语言中需要的内容查询出相应的列。
优选的,
所述自然语言输入模块,包括显示设备显示的输入框,用于输入自然语言;
所述输出模块,包括显示设备显示的输出界面,用于以数字、图表、图形或数字、图表、图形的组合的方式显示输出结果;所述输出界面与所述输入框在显示设备显示的同一界面显示。
优选的,所述语言解析结果,包括关键字和每个关键字所对应的解析准确性权值。
优选的,所述语言解析模块用于对所述自然语言进行解析,包括:
语言解析模块对所述自然语言进行分词,得到分词结果;
语言解析模块对所述分词结果进行词性标注,得到标注结果;
语言解析模块对所述标注结果进行命名实体识别,得到实体识别结果;
语言解析模块依据预设的规则对所述命名实体识别结果赋予权值,得到带有权值的实体识别结果;
语言解析模块根据预设的规则选择带有权值的实体识别结果,将其设置为关键字,将其权值设置为和关键字对应的解析准确性权值。
优选的,所述语言解析模块,还用于:
对解析得到的关键字进行扩展,得到扩展后的关键字,所述扩展为根据预设的规则通过关键字获取潜在关键字,所述潜在关键字为根据预设规则获取的、与关键字的读音或形状相近的关键字;
根据预设的规则对扩展后的关键字赋予解析准确性权值,所述权值小于1。
优选的,所述潜在关键字,还包括:
与关键字的输入按键序列相似度在预设范围内的字或词,所述字或词在预设的词典中查找,所述输入按键序列相似度由第一公式计算,所述第一公式为:
其中,S表示相似度;n为关键字的输入按键的次数;ai表示关键字的第i次按键;bi表示字或词的第i次按键;d(ai,bi)为字或词的第i次按键与关键字的第i次按键在键盘上的距离的函数,当所述距离增加时,其值降低,其最小值为0,当所述距离为0时,该函数值为1;q为可调整参数,其值大于0且小于1,表示字或词调整2个按键的输入顺序即变成关键字的可能性权重;k为大于等于i且小于等于n的任一正整数。
优选的,所述自然语言输入模块,还用于:
当用户输入的自然语言为语音时,自然语言输入模块将所述语音转换为文字;
自然语言输入模块将所述由语音转换为文字的自然语言设置标注,并将标注作为自然语言的一部分发送至语言解析模块。
优选的,所述标注,包括:
标记当前自然语言为由语音转换成文字的标记符号;
标记所述文字由对应的音节转换正确的概率值,所述概率值由预设的规则得到。
优选的,所述数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块,可实施为:
数据处理模块接收到的语言解析结果,包括关键字和每个关键字所对应的解析准确性权值;
数据处理模块根据预设规则对所述关键字进行分类,所述得到不同类别的关键字,包括过滤条件关键字、输出列关键字、结果展现方式关键字(如:明细,汇总、平均值、最大值、最小值)
数据处理模块通过关键字按其类别对待检索的结构化数据进行检索;
数据处理模块根据每个检索结果所用到的关键字进行排序,得到排序后的检索结果,所述排序方法为根据所用到的关键字的解析准确性权值之和由大到小进行排序;
数据处理模块在排序后的检索结果中从前向后选取预设数量的检索结果,并将其设置为操作结果;
数据处理模块将操作结果发送至输出模块。
本发明的一些有益效果可以包括:
本发明提供的一种通过自然语言实现结构化数据搜索的方法,能够通过自然语言实现对结构化数据的搜索,降低了数据检索的技术门槛,提高了数据检索的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种通过自然语言实现结构化数据搜索的方法的流程图;
图2为本发明实施例中一种通过自然语言实现结构化数据搜索的方法的搜索示意图;
图3为本发明实施例中一种显示输出结果的示意图;
图4为本发明实施例中一种显示输出结果的示意图;
图中,
201--输入框;202--输出界面。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种通过自然语言实现结构化数据搜索的方法的流程图。如图1所示,该方法通过自然语言输入模块、语言解析模块、数据处理模块、输出模块实现,包括:
步骤S101、自然语言输入模块接收用户输入的自然语言,所述自然语言为文字或语音;
步骤S102、语言解析模块用于对所述自然语言进行解析,并将语言解析结果发送给数据处理模块;
步骤S103、数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块,所述操作包括查询操作;
步骤S104、输出模块将接收到的输出结果进行输出。
在本发明的一个实施例中,所述自然语言输入模块、语言解析模块、数据处理模块、输出模块均由智能手机实现(显然的,也可以有电脑、平板电脑等设备实现),如图2所示,为本发明实施例中一种通过自然语言实现结构化数据搜索的方法的搜索示意图,用户通过文字或语音的等自然语言的形式发送“张三的语文成绩”给自然语言输入模块,由语言解析模块对所述自然语言进行解析,解析到“张三”、“语文成绩”两个关键字,并将语言解析结果发送给数据处理模块;数据处理模块根据接收到的语言解析结果对待检索数据进行操作,用“张三”以及“语文成绩”在数据中查询,并将操作结果发送至输出模块,即显示模块;由显示模块的显示屏将接收到的输出结果进行输出。
在本发明的另一个实施例中,数据为学生的信息和成绩数据,如表1所示,在输入模块中输入“张三的语文成绩”,通过语言解析模块解析后,得到“张三”、“语文成绩”两个关键词,以及这两个关键词分别是检索条件和要输出的值,其中,要输出的值也可以视为一种检索条件,并将其作为语言解析结果发送给数据处理模块,数据处理模块在结构化数据中查找标题中含有“语文成绩”的结构化数据;运用全文检索技术对结构化数据进行检索,检索出含有“张三”的行号,同时检索出该行的“语文成绩”为“91”,将“91”作为操作结果发送至输出模块,由输出模块在输出界面上显示“91”。
在输入模块中输入“王五的英语成绩”,通过语言解析模块解析后,得到“王五”、“英语成绩”两个关键词,以及这两个关键词分别是检索条件和要输出的值,并将其作为语言解析结果发送给数据处理模块,数据处理模块在结构化数据中查找标题中含有“英语成绩”的结构化数据;运用全文检索技术对结构化数据进行检索,检索出含有“王五”的行号,同时检索出对应行的“英语成绩”为“75”、“100”,将“75”、“100”以及对应行的“王五”的其他信息作为操作结果发送至输出模块,由输出模块在输出界面上显示“75”、“100”以及对应行的“王五”的其他信息。
在输入模块中输入“南京市王五的数学成绩”,通过语言解析模块解析后,得到“南京市”、“王五”、“数学成绩”三个关键词,以及这三个关键词分别是检索条件、检索条件和要输出的值,并将其作为语言解析结果发送给数据处理模块,数据处理模块在结构化数据中查找标题中含有“数学成绩”的结构化数据;运用全文检索技术对结构化数据进行检索,检索出含有“南京市”和“王五”的行号,同时检索出对应行的“数学成绩”为“76”,将“76”作为操作结果发送至输出模块,由输出模块在输出界面上显示“76”。
表1、学生的信息和成绩数据
为了更方便快捷的进行查询,在本发明的一个优选实施例中,所述查询操作,对待检索的结构化数据执行查询操作(结构化数据包括:文本文件、数据库表等),所述查询操作实施为先根据输入的自然语言中过滤条件筛选出相应的行(记录),再根据输入的自然语言中需要的内容查询出相应的列(字段)。
为了更直观的看到输入自然语言以及查询结果,方便进行纠错,如图2所示,在本发明的一个优选实施例中,
所述自然语言输入模块,包括显示设备显示的输入框201,用于输入自然语言;
所述输出模块,包括显示设备显示的输出界面202,用于以数字、图表、图形或数字、图表、图形的组合的方式显示输出结果;所述输出界面与所述输入框在显示设备显示的同一界面显示。输出界面可以设置在输入框的下面、上面、左侧或右侧,由于习惯和美观问题,输出界面设置在输入框的下面或上面较优,尤其是输出界面设置在输入框的下面更符合多数人的操作习惯。如图3、和图4所示,为本发明实施例中,通过数字、图表、图形或数字、图表、图形的组合的方式显示输出结果的示意图。
由于对自然语言进行解析存在错误的可能性,需要对解析的准确性进行评估,当有了这个估计时,能够根据估计值的好坏选择重新解析获取提供解析结果,避免搜索到错误的数据。为了评估对自然语言进行解析的准确性,在本发明的一个优选实施例中,所述语言解析结果,包括关键字和每个关键字所对应的解析准确性权值。
由于对自然语言进行解析存在错误的可能性,需要对解析的准确性进行评估,而在估计准确性时,不仅涉及到对字或词的解析,还涉及到对词性的解析,尤其还涉及到代词所指代的实体的解析,而对代词所指代的实体的解析需要准确,为了表述代词所指代的实体的解析的准确性,从而能够根据估计值的好坏选择重新解析获取提供解析结果,避免搜索到错误的数据。为了评估代词所指代的实体的解析的准确性,在本发明的一个优选实施例中,所述语言解析模块用于对所述自然语言进行解析,包括:
语言解析模块对所述自然语言进行分词,得到分词结果;
语言解析模块对所述分词结果进行词性标注,得到标注结果;
语言解析模块对所述标注结果进行命名实体识别,得到实体识别结果;
语言解析模块依据预设的规则对所述命名实体识别结果赋予权值,得到带有权值的实体识别结果;
语言解析模块根据预设的规则选择带有权值的实体识别结果,将其设置为关键字,将其权值设置为和关键字对应的解析准确性权值。
由于对自然语言进行解析存在错误的可能性,需要由解析到的错误结果猜测出正确的结果,为了达成这一目的,可以通过对解析结果进行扩展的方法来实现,通过扩展关键字来找到可能被解析错误的关键字,在本发明的一个优选实施例中,所述语言解析模块,还用于:
对解析得到的关键字进行扩展,得到扩展后的关键字,所述扩展为根据预设的规则通过关键字获取潜在关键字,所述潜在关键字为根据预设规则获取的、与关键字的读音或形状相近的关键字;
根据预设的规则对扩展后的关键字赋予解析准确性权值,所述权值小于1。
除了解析错误外,还有可能出现自然语言输入错误的问题,为了解决自然语言输入错误的问题,通过对比解析得到的关键字与预设的词典中的字或词的差异来猜测真实的关键字,当差异小于预设的范围时,那么这些预设的词典中的字或词就被当作潜在的关键字,在本发明的一个优选实施例中,所述潜在关键字,还包括:
与关键字的输入按键序列相似度在预设范围内的字或词,所述字或词在预设的词典中查找,所述输入按键序列相似度由第一公式计算,所述第一公式为:
其中,S表示相似度;n为关键字的输入按键的次数;ai表示关键字的第i次按键;bi表示字或词的第i次按键;d(ai,bi)为字或词的第i次按键与关键字的第i次按键在键盘上的距离的函数,当所述距离增加时,其值降低,其最小值为0,当所述距离为0时,该函数值为1;q为可调整参数,其值大于0且小于1,表示字或词调整2个按键的输入顺序即变成关键字的可能性权重;k为大于等于i且小于等于n的任一正整数。
由于自然语言的输入有语音和文字两种形式,而语言输入往往比文字输入造成更大的解析难度,因此需要对这两种输入进行区分,以便可以使用不同解析方法、不同的预设的阈值等,使解析更准确实用。而这些可以通过增加标注的方式实现,在本发明的一个优选实施例中,所述自然语言输入模块,还用于:
当用户输入的自然语言为语音时,自然语言输入模块将所述语音转换为文字;
自然语言输入模块将所述由语音转换为文字的自然语言设置标注,并将标注作为自然语言的一部分发送至语言解析模块。
由于对不同的语音有着不同的解析准确性,为了区分这一点,从而实现更准确的语言解析,在本发明的一个优选实施例中,所述标注,包括:
标记当前自然语言为由语音转换成文字的标记符号;
标记所述文字由对应的音节转换正确的概率值,所述概率值由预设的规则得到。
由于关键字带有权值,且关键字在扩展后可能较多,容易搜索到超过需求的检索结果,因此需要对检索结果进行筛选,而筛选则可以根据关键字的解析准确性权值来进行,因此,在本发明的一个优选实施例中,所述数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块,可实施为:
数据处理模块接收到的语言解析结果,包括关键字和每个关键字所对应的解析准确性权值;
数据处理模块根据预设规则对所述关键字进行分类,所述得到不同类别的关键字,包括过滤条件关键字、输出列关键字、结果展现方式关键字(如:明细,汇总、平均值、最大值、最小值)
数据处理模块通过关键字按其类别对待检索的结构化数据进行检索;
数据处理模块根据每个检索结果所用到的关键字进行排序,得到排序后的检索结果,所述排序方法为根据所用到的关键字的解析准确性权值之和由大到小进行排序;
数据处理模块在排序后的检索结果中从前向后选取预设数量的检索结果,并将其设置为操作结果;
数据处理模块将操作结果发送至输出模块。
本发明提供的一种通过自然语言实现结构化数据搜索的方法,能够通过自然语言实现对数据库的搜索,降低了数据检索的技术门槛,提高了数据检索的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种通过自然语言实现结构化数据搜索的方法,通过自然语言输入模块、语言解析模块、数据处理模块、输出模块实现,其特征在于,包括:
自然语言输入模块接收用户输入的自然语言,所述自然语言为文字或语音;
语言解析模块用于对所述自然语言进行解析,并将语言解析结果发送给数据处理模块;
数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块,所述操作包括查询操作;
输出模块将接收到的输出结果进行输出。
2.如权利要求1所述的方法,其特征在于,所述查询操作,对待检索的结构化数据执行查询操作(结构化数据包括:文本文件、数据库表等),所述查询操作实施为先根据输入的自然语言中过滤条件筛选出相应的行,再根据输入的自然语言中需要的内容查询出相应的列。
3.如权利要求1所述的方法,其特征在于,
所述自然语言输入模块,包括显示设备显示的输入框,用于输入自然语言;
所述输出模块,包括显示设备显示的输出界面,用于以数字、图表、图形或数字、图表、图形的组合的方式显示输出结果;所述输出界面与所述输入框在显示设备显示的同一界面显示。
4.如权利要求1所述的方法,其特征在于,所述语言解析结果,包括关键字和每个关键字所对应的解析准确性权值。
5.如权利要求4所述的方法,其特征在于,所述语言解析模块用于对所述自然语言进行解析,包括:
语言解析模块对所述自然语言进行分词,得到分词结果;
语言解析模块对所述分词结果进行词性标注,得到标注结果;
语言解析模块对所述标注结果进行命名实体识别,得到实体识别结果;
语言解析模块依据预设的规则对所述命名实体识别结果赋予权值,得到带有权值的实体识别结果;
语言解析模块根据预设的规则选择带有权值的实体识别结果,将其设置为关键字,将其权值设置为和关键字对应的解析准确性权值。
6.如权利要求4所述的方法,其特征在于,所述语言解析模块,还用于:
对解析得到的关键字进行扩展,得到扩展后的关键字,所述扩展为根据预设的规则通过关键字获取潜在关键字,所述潜在关键字为根据预设规则获取的、与关键字的读音或形状相近的关键字;
根据预设的规则对扩展后的关键字赋予解析准确性权值,所述权值小于1。
7.如权利要求6所述的方法,其特征在于,所述潜在关键字,还包括:
与关键字的输入按键序列相似度在预设范围内的字或词,所述字或词在预设的词典中查找,所述输入按键序列相似度由第一公式计算,所述第一公式为:
<mrow> <mi>S</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </mfrac> <mo>,</mo> <mi>n</mi> <mo>&amp;le;</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </mfrac> <mo>,</mo> <mi>q</mi> <mo>&amp;times;</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>b</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>b</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mi>k</mi> <mo>+</mo> <mn>3</mn> </mrow> <mi>n</mi> </msubsup> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mi>n</mi> <mo>&gt;</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,S表示相似度;n为关键字的输入按键的次数;ai表示关键字的第i次按键;bi表示字或词的第i次按键;d(ai,bi)为字或词的第i次按键与关键字的第i次按键在键盘上的距离的函数,当所述距离增加时,其值降低,其最小值为0,当所述距离为0时,该函数值为1;q为可调整参数,其值大于0且小于1,表示字或词调整2个按键的输入顺序即变成关键字的可能性权重;k为大于等于i且小于等于n的任一正整数。
8.如权利要求4所述的方法,其特征在于,所述自然语言输入模块,还用于:
当用户输入的自然语言为语音时,自然语言输入模块将所述语音转换为文字;
自然语言输入模块将所述由语音转换为文字的自然语言设置标注,并将标注作为自然语言的一部分发送至语言解析模块。
9.如权利要求8所述的方法,其特征在于,所述标注,包括:
标记当前自然语言为由语音转换成文字的标记符号;
标记所述文字由对应的音节转换正确的概率值,所述概率值由预设的规则得到。
10.如权利要求4所述的方法,其特征在于,所述数据处理模块根据接收到的语言解析结果对待检索数据进行操作,并将操作结果发送至输出模块,可实施为:
数据处理模块接收到的语言解析结果,包括关键字和每个关键字所对应的解析准确性权值;
数据处理模块根据预设规则对所述关键字进行分类,所述得到不同类别的关键字,包括过滤条件关键字、输出列关键字、结果展现方式关键字(如:明细,汇总、平均值、最大值、最小值)
数据处理模块通过关键字按其类别对待检索的结构化数据进行检索;
数据处理模块根据每个检索结果所用到的关键字进行排序,得到排序后的检索结果,所述排序方法为根据所用到的关键字的解析准确性权值之和由大到小进行排序;
数据处理模块在排序后的检索结果中从前向后选取预设数量的检索结果,并将其设置为操作结果;
数据处理模块将操作结果发送至输出模块。
CN201711015609.6A 2017-10-26 2017-10-26 一种通过自然语言实现结构化数据搜索的方法 Active CN107748784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711015609.6A CN107748784B (zh) 2017-10-26 2017-10-26 一种通过自然语言实现结构化数据搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711015609.6A CN107748784B (zh) 2017-10-26 2017-10-26 一种通过自然语言实现结构化数据搜索的方法

Publications (2)

Publication Number Publication Date
CN107748784A true CN107748784A (zh) 2018-03-02
CN107748784B CN107748784B (zh) 2021-05-25

Family

ID=61254029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711015609.6A Active CN107748784B (zh) 2017-10-26 2017-10-26 一种通过自然语言实现结构化数据搜索的方法

Country Status (1)

Country Link
CN (1) CN107748784B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344300A (zh) * 2018-08-31 2019-02-15 深圳壹账通智能科技有限公司 自然语言的数据查询意图确定方法、装置和计算机设备
CN109446277A (zh) * 2018-09-21 2019-03-08 北京翰云时代数据技术有限公司 基于中文自然语言的关系型数据智能搜索方法及系统
CN109933672A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 处理查询的方法、装置、电子设备和计算机可读存储介质
CN110083681A (zh) * 2019-04-12 2019-08-02 中国平安财产保险股份有限公司 基于数据分析的搜索方法、装置及终端
CN110347901A (zh) * 2018-04-02 2019-10-18 和硕联合科技股份有限公司 一种搜索方法以及一种应用该方法的电子装置
CN111176650A (zh) * 2018-11-09 2020-05-19 阿里巴巴集团控股有限公司 解析器生成方法、检索方法、服务器及存储介质
CN111339124A (zh) * 2020-02-21 2020-06-26 北京衡石科技有限公司 显示数据方法、装置、电子设备和计算机可读介质
CN111506595A (zh) * 2020-04-20 2020-08-07 金蝶软件(中国)有限公司 一种数据查询方法、系统及相关设备
CN117785915A (zh) * 2024-01-08 2024-03-29 国网山东省电力公司聊城供电公司 一种数据查询及分析系统、方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872351A (zh) * 2009-04-27 2010-10-27 阿里巴巴集团控股有限公司 识别同义词的方法、装置及利用其进行搜索的方法和装置
CN102184028A (zh) * 2011-04-11 2011-09-14 百度在线网络技术(北京)有限公司 获取与输入按键序列相对应的候选字符串的方法与设备
US20120072443A1 (en) * 2010-09-21 2012-03-22 Inventec Corporation Data searching system and method for generating derivative keywords according to input keywords
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
CN103678336A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN103927329A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种即时搜索方法和系统
CN106980689A (zh) * 2017-03-31 2017-07-25 邢加和 一种通过语音交互实现数据可视化的方法
CN107193948A (zh) * 2017-05-22 2017-09-22 邢加和 人机对话数据分析方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872351A (zh) * 2009-04-27 2010-10-27 阿里巴巴集团控股有限公司 识别同义词的方法、装置及利用其进行搜索的方法和装置
US20120072443A1 (en) * 2010-09-21 2012-03-22 Inventec Corporation Data searching system and method for generating derivative keywords according to input keywords
CN102184028A (zh) * 2011-04-11 2011-09-14 百度在线网络技术(北京)有限公司 获取与输入按键序列相对应的候选字符串的方法与设备
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
CN103678336A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN103927329A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种即时搜索方法和系统
CN106980689A (zh) * 2017-03-31 2017-07-25 邢加和 一种通过语音交互实现数据可视化的方法
CN107193948A (zh) * 2017-05-22 2017-09-22 邢加和 人机对话数据分析方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347901A (zh) * 2018-04-02 2019-10-18 和硕联合科技股份有限公司 一种搜索方法以及一种应用该方法的电子装置
CN109344300A (zh) * 2018-08-31 2019-02-15 深圳壹账通智能科技有限公司 自然语言的数据查询意图确定方法、装置和计算机设备
WO2020042530A1 (zh) * 2018-08-31 2020-03-05 深圳壹账通智能科技有限公司 自然语言的数据查询意图确定方法、装置和计算机设备
CN109446277A (zh) * 2018-09-21 2019-03-08 北京翰云时代数据技术有限公司 基于中文自然语言的关系型数据智能搜索方法及系统
CN111176650A (zh) * 2018-11-09 2020-05-19 阿里巴巴集团控股有限公司 解析器生成方法、检索方法、服务器及存储介质
CN111176650B (zh) * 2018-11-09 2023-04-18 阿里巴巴集团控股有限公司 解析器生成方法、检索方法、服务器及存储介质
CN109933672B (zh) * 2019-02-12 2021-09-07 北京百度网讯科技有限公司 处理查询的方法、装置、电子设备和计算机可读存储介质
CN109933672A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 处理查询的方法、装置、电子设备和计算机可读存储介质
CN110083681A (zh) * 2019-04-12 2019-08-02 中国平安财产保险股份有限公司 基于数据分析的搜索方法、装置及终端
CN110083681B (zh) * 2019-04-12 2024-02-09 中国平安财产保险股份有限公司 基于数据分析的搜索方法、装置及终端
CN111339124A (zh) * 2020-02-21 2020-06-26 北京衡石科技有限公司 显示数据方法、装置、电子设备和计算机可读介质
CN111339124B (zh) * 2020-02-21 2024-04-12 北京衡石科技有限公司 显示数据方法、装置、电子设备和计算机可读介质
CN111506595A (zh) * 2020-04-20 2020-08-07 金蝶软件(中国)有限公司 一种数据查询方法、系统及相关设备
CN111506595B (zh) * 2020-04-20 2024-03-19 金蝶软件(中国)有限公司 一种数据查询方法、系统及相关设备
CN117785915A (zh) * 2024-01-08 2024-03-29 国网山东省电力公司聊城供电公司 一种数据查询及分析系统、方法

Also Published As

Publication number Publication date
CN107748784B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN107748784A (zh) 一种通过自然语言实现结构化数据搜索的方法
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN106649786B (zh) 基于深度问答的答案检索方法及装置
US11182435B2 (en) Model generation device, text search device, model generation method, text search method, data structure, and program
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
JP2005122533A (ja) 質問応答システムおよび質問応答処理方法
JP2006190006A5 (zh)
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
CN102314452B (zh) 一种通过输入法平台进行导航的方法及系统
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN104133855A (zh) 一种输入法智能联想的方法及装置
WO2016178337A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
WO2022146333A1 (en) A text summarization performance evaluation method sensitive to text categorization and a summarization system using the said method
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
CN109298796B (zh) 一种词联想方法及装置
Kovář et al. Finding definitions in large corpora with Sketch Engine
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
CN114780491A (zh) 文件检索方法及装置
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180718

Address after: 211100 103-3 1 bedroom, 8 Ande Gate Street, Yuhuatai District, Nanjing, Jiangsu, China, 103-3

Applicant after: Jiangsu Sai Rui information Polytron Technologies Inc

Address before: 211100 room 1705, Qinhuai Road, Mau Ling Street, Jiangning District, Nanjing, Jiangsu, China, 100

Applicant before: Xing Jiahe

GR01 Patent grant
GR01 Patent grant