CN109492081A - 文本信息搜索和信息交互方法、装置、设备及存储介质 - Google Patents

文本信息搜索和信息交互方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109492081A
CN109492081A CN201811280654.9A CN201811280654A CN109492081A CN 109492081 A CN109492081 A CN 109492081A CN 201811280654 A CN201811280654 A CN 201811280654A CN 109492081 A CN109492081 A CN 109492081A
Authority
CN
China
Prior art keywords
information
character string
scene
word segmentation
segmentation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811280654.9A
Other languages
English (en)
Other versions
CN109492081B (zh
Inventor
毕小栓
孙欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201811280654.9A priority Critical patent/CN109492081B/zh
Publication of CN109492081A publication Critical patent/CN109492081A/zh
Application granted granted Critical
Publication of CN109492081B publication Critical patent/CN109492081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本信息搜索和信息交互方法、装置、设备及存储介质。该方法包括:获取输入信息以及与输入信息匹配的查找信息集合;将输入信息以及查找信息集合中的各查找信息进行信息切分,得到与输入信息及各查找信息分别对应的分词结果集;将各分词结果集中包括的分词进行去重处理并排序,形成与输入信息对应的基础字符串以及与各查找信息对应的比对字符串;将基础字符串分别与各比对字符串进行字符串比对,获取与基础字符串相同的一个比对字符串对应的查找信息作为与输入信息匹配的命中结果。本发明实施例提供的技术方案,解决了现有技术中通过人力维护语义模板来匹配对应答案,造成的信息匹配复杂度高的问题,提高了信息匹配速度。

Description

文本信息搜索和信息交互方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据交互技术领域,尤其涉及一种文本信息搜索和信息交互方法、装置、设备及存储介质。
背景技术
随着搜索引擎技术的不断发展,计算机仅可以通过用户输入的一个或者多个关键词,在海量的信息数据库中进行匹配查找,获取用户所期望查看的文档或者视频等相关内容。特别的,随着智能技术的发展,市场上应用于客户现场的,能够为用户提供各种服务的智能机器人系统(典型的,客服机器人系统)已经非常普遍。为了方便用户尽快适应当前所处的现场环境,用户可以在现场客服机器人上配置的相应界面中输入对应的疑问,由客服机器人根据该疑问在保存有各类资料的后台数据库中匹配正确的答案反馈给用户。
而目前的客服机器人或者任一种搜索设备对于某一问题的搜索匹配,一般是通过对该输入问题对应的自然语言进行识别,根据识别结果采用现有的特征相似算法来匹配后台数据库中预先存储的语义模板,进而确定与该疑问匹配的答案,返回给用户。现有的技术中,将预存的语义模板与用户当前的问题进行匹配的过程比较复杂,需要较长时时间才能给用户返回与疑问匹配的答案,同时通过人力维护语义模板的成本较高。
发明内容
本发明实施例提供一种文本信息搜索和信息交互方法、装置、设备及存储介质,以降低文本信息搜索的复杂度,提高信息匹配的速度。
第一方面,本发明实施例提供了一种文本信息搜索方法,该方法包括:
获取输入信息,并获取与所述输入信息匹配的查找信息集合;
将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集;
将各所述分词结果集中包括的分词进行去重处理;
将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串;
将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的查找信息作为与所述输入信息匹配的命中结果。
第二方面,本发明实施例还提供了一种信息交互方法,该方法包括:
在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列;
其中,所述对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,所述搜索结果序列中包括至少两个场景对话信息中的场景问题;
将所述输入信息以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集;
将各所述分词结果集中包括的分词进行去重处理;
将各所述分词结果集中包括的分词进行排序,形成与所述交互问题对应的基础字符串以及与各所述场景问题对应的比对字符串;
将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题;
在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户。
第三方面,本发明实施例提供了一种文本信息搜索装置,该装置包括:
查找信息集合获取模块,用于获取输入信息,并获取与所述输入信息匹配的查找信息集合;
信息切分模块,用于将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集;
去重处理模块,用于将各所述分词结果集中包括的分词进行去重处理;
排序模块,用于将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串;
比对模块,用于将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的查找信息作为与所述输入信息匹配的命中结果。
第四方面,本发明实施例提供了一种信息交互装置,该装置包括:
搜索结果序列获取模块,用于在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列;
其中,所述对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,所述搜索结果序列中包括至少两个场景对话信息中的场景问题;
问题切分模块,用于将所述交互问题以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集;
分词去重模块,用于将各所述分词结果集中包括的分词进行去重处理;
分词排序模块,用于将各所述分词结果集中包括的分词进行排序,形成与所述交互问题对应的基础字符串以及与各所述场景问题对应的比对字符串;
字符串比对模块,用于将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题;
答案发送模块,用于在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户。
第五方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明任意实施例所述的文本信息搜索方法,或者实现本发明任意实施例所述的信息交互方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本信息搜索方法,或者实现本发明任意实施例所述的信息交互方法。
本发明实施例提供的一种文本信息搜索和信息交互方法、装置、计算机设备及存储介质,通过采用信息切分技术得到用户输入信息与查找信息分别对应的分词结果集,并进行去重和排序处理,对得到的基础字符串与各比对字符串进行精准比对,减少了数据特征提取的运算量,提高了特征提取效率,进而提高了信息匹配速度。
附图说明
图1为本发明实施例一提供的一种文本信息搜索方法的流程图;
图2是本发明实施例二提供的一种信息交互方法的流程图;
图3是本发明实施例三提供的一种信息交互方法的流程图;
图4是本发明实施例四提供的一种信息交互方法的流程图;
图5为本发明实施例五提供的一种文本信息搜索装置的结构示意图;
图6为本发明实施例六提供的一种信息交互装置的结构示意图;
图7为本发明实施例七中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本信息搜索方法的流程图,本实施例可适用于根据用户的输入信息获取匹配的命中结果的情况,该方法可以由文本信息搜索装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可以集成在各种提供信息搜索服务的终端或者服务器中。具体的,参考图1,该方法可以包括如下步骤:
步骤101、获取输入信息,并获取与输入信息匹配的查找信息集合。
典型的,所述输入信息可以是用户的搜索内容中包括的文本标题信息、文本摘要信息等可以对搜索的内容进行唯一识别的信息,例如,如果用户的搜索内容为一个文档,则该输入信息可以为文档名或者文档中包括的第一句话等,如果用户的搜索内容为一个音频文件或者一个视频文件,则该输入信息可以为音频或者视频文件的文件名称等。
进一步的,该输入信息可以是用户对某一自身感兴趣的内容存在的疑惑,也可以是用户与另一用户之间进行情感交流时产生的情感问题等。
具体的,在获取用户的输入信息后,可以将上述输入信息与信息库中包括的全部内容进行匹配,进而可以将信息库中的全部内容直接作为查找信息集合。
进一步的,还可以首先根据输入信息,在信息库中进行初始查找,获取与输入信息匹配的查找信息集合,以减少后续与查找信息集合的匹配数据量,相应的,根据输入信息,在信息库中进行初始查找,获取与输入信息匹配的查找信息集合具体可以包括:采用设定搜索引擎技术,根据用户输入的信息,在信息库包括的多个信息中进行搜索处理,将搜索得到的信息问题构成查找信息集合。
为了保证搜索的顺利执行,可以预先配置对应的搜索引擎服务。此时,在接收到用户输入的信息时,可以采用预先设定的搜索引擎技术在信息库包括的多个信息中进行搜索处理,并将搜索得到的信息问题构成本次查找的查找信息集合。可选的,本实施例中的搜索引擎技术可以包括:elasticsearch、solr、lucene等各类引擎技术,以缩小对用户输入信息的筛选范围。
步骤102、将输入信息以及查找信息集合中的各查找信息进行信息切分,得到与输入信息以及各查找信息分别对应的分词结果集。
具体的,根据输入信息在查找信息集合中包括的多个查找信息中进行查找时,首先需要比对该输入信息与各查找信息的相似性,此时可以通过特征提取技术对输入信息与各查找信息之间的相似性进行分析,本实施例中采用信息切分技术,通过分别对输入信息和各查找信息进行对应的信息切分处理,得到对应的分词结果集。此时从输入信息或各查找信息等大样本中提取出关键目标,缩小样本范围,同时简化了选用其他的特征向量进行特征提取时的操作复杂度,不需要额外计算两者对应的特征向量的向量相似度,减少了数据运算量,提高了特征提取效率。
可选的,本实施例中对输入信息以及查找信息集合中的各查找信息进行信息切分的具体过程进行分析,通过下述三种情况均可以得到切分后对应的分词结果集。
1)采用单字切分方法,将输入信息以及查找信息集合中的各查找信息分别切分为单字信息集合作为分词结果集。
具体的,本次切分可以采用中文分词中的一元切分方法,对用户输入的输入信息以及查找信息集合中包括的各个查找信息进行信息切分,分别得到对输入信息切分后的单字信息集合,作为与输入信息对应的分词结果集;得到对查找信息集合中的各个查找信息切分后的单字信息集合,作为与各个查找信息对应的分词结果集。
2)采用双字切分方法,将输入信息以及查找信息集合中的各查找信息分别切分为双字信息集合作为分词结果集。
具体的,本次切分可以采用中文分词中的二元切分方法,对用户输入的输入信息以及查找信息集合中包括的各个查找信息进行信息切分,分别得到对输入信息切分后的双字信息集合,作为与输入信息对应的分词结果集;得到对查找信息集合中的各个查找信息切分后的双字信息集合,作为与各个查找信息对应的分词结果集。
3)采用词义切分方法,将输入信息以及查找信息集合中的各查找信息分别切分为词义信息集合作为分词结果集。
具体的,本次切分可以采用中文分词中的词义切分方法,对用户输入的输入信息以及查找信息集合中包括的各个查找信息进行词义分析,从而进行对应的信息切分,分别得到对输入信息切分后的词义信息集合,作为与输入信息对应的分词结果集;得到对查找信息集合中的各个查找信息切分后的词义信息集合,作为与各个查找信息对应的分词结果集。
步骤103、将各分词结果集中包括的分词进行去重处理。
其中,去重是指除去对应的分词结果中重复的、冗余的分词,仅在分词结果集中保留一个相同的分词,以减少后续的运算量。
具体的,在对输入信息和各查找信息分别进行信息切分后,得到对应的分词结果集。此时,为了确定后续操作执行的速率和正确性,本实施例中可以对与输入信息对应的分词结果集进行去重处理;也可以对与各查找信息对应的分词结果集进行去重处理,以得到更精确的比对特征。同时,本实施例中还可以对分词结果集中的各个分词进行近义词处理,在各分词结果集中将各个分词衍生出多个意思相近的词语,以保证后续比对的正确性。
可选的,本实施例在将各分词结果集中包括的分词进行去重处理之后,还包括:去除各分词结果集中包括的虚词。
其中,虚词可以包括:介词、连词、助词以及语气词等不含信息量的分词。
具体的,在得到去重后的分词结果集后,为了减少后续比对过程中的运算量,还可以将各个分词结果集中包括的无任何实际意义的虚词去除,也就是在各个分词结果集中,除去对应的介词、连词、助词以及语气词等分词,保留具有实际含义的分词,提高后续比对的正确性。
步骤104、将各分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各查找信息对应的比对字符串。
具体的,在去除各分词结果集中的虚词后,为了便于对输入信息对应的各分词和各查找信息对应的各分词进行精确比对,本实施例中可以采用预设的排序算法,分别对与输入信息对应的分词结果集以及与各查找信息对应的分词结果集中的各个分词进行排序处理。其中,该排序算法可以是根据各分词的拼音首字母进行排序,也可以是根据各分词的笔画数量等进行排序等本实施例中对此并不作限定。
进一步的,分别对输入信息和各查找信息对应的分词结果集中包括的各分词进行预设的排序处理后,可以分别得到与输入信息对应的基础字符串和与各查找信息对应的比对字符串,也就是将与输入信息对应的分词结果集中的各分词按照设定排序算法进行排序后,组成对应的基础字符串;并相应将与各查找信息对应的分词结果中的各分词按照同样的设定排序算法进行排序,然后根据排序顺序分别组成与各查找信息对应的比对字符串。
可选的,在本实施例中,将各分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各查找信息对应的比对字符串,可以具体包括:按照简单字节码排序算法,将各分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串。
具体的,本实施例中采用简单字节码排序算法,分别将与输入信息对应的分词结果集和与各查找信息对应的分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串。
本实施例中还可以根据分别对与输入信息对应的分词结果集和与各查找信息对应的分词结果集进行近义词处理,通过将得到的近义词替换对应的基础字符串或比对字符串中对应的分词,得到另一新的基础字符串或比对字符串,在后续也可以对通过近义词替换得到的基础字符串和比对字符串进行比对,判断输入信息与各查找信息的匹配程度,提高在信息库中搜索的全面性。
步骤105、将基础字符串分别与各比对字符串进行字符串比对,获取与基础字符串相同的一个比对字符串对应的查找信息作为与输入信息匹配的命中结果。
可选的,得到与输入信息对应的基础字符串和与各查找信息对应的比对字符串时,为了在各查找信息中获取与输入信息最匹配的目标查找信息,可以将基础字符串和/或通过近义词替换得到的基础字符串,分别与各个比对字符串和/或通过近义词替换得到的比对字符串进行字符串比对,从而在各个比对字符串中获取与基础字符串相同的一个比对字符串,并将该获取的比对字符串对应的查找信息作为目标查找信息。
示例性的,若用户输入一个输入信息:上海国家电网维度测试—。
首先,对该输入信息在信息库中进行初始查找,得到与该输入信息匹配的查找信息集合为:【0】国家电网维度测试--南京、【1】国家电网维度测试--上海和【2】国家电网维度测试--上海11。
其次,对输入信息,以及查找信息集合中的各结果进行信息切分,得到下述对应的分词结果集:
【输入】上海 上 国家电网 国家 家电 电网 电 网 维度 维 度 测试 试;
【0】国家电网 国家 家电 电网 电 网 维度 维 度 测试 试 南京 南;
【1】国家电网 国家 家电 电网 电 网 维度 维 度 测试 试 上海 上;
【2】国家电网 国家 家电 电网 电 网 维度 维 度 测试 试 上海 上 11;
此时,对各分词结果集进行去重处理,并根据简单字节码进行排序,得到基础字符串为:【输入】上国家度测海电维网试;各比对字符串分别为:【0】京南国家度测电维网试、【1】上国家度测海电维网试和【2】1上国家度测海电维网试。
最后,分别将基础字符串与各比对字符串进行比对,可以得到【1】中的比对字符串与【输入】中的基础字符串完全相同,此时将【1】对应的查找信息作为目标查找信息。
本实施例提供的技术方案,通过采用信息切分技术得到输入信息与查找信息集合中的各查找信息的分词结果集,并进行去重和排序处理,对得到的基础字符串与各比对字符串进行精准比对,减少了数据特征提取的运算量,提高了特征提取效率。
实施例二
图2为本发明实施例二提供的一种信息交互方法的流程图,本实施例可以与上述一个或者多个实施例中各个可选方案结合。本实施例可适用于任一种需要在智能机器人中或搜索设备中根据用户输入的疑问搜索相应答案或者用户间进行情感交互的情况,具体的,参考图2,该方法可以包括如下步骤:
步骤201、在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列。
其中,对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,交互问题可以是用户对某一自身感兴趣的内容存在的疑惑,也可以是用户与另一用户之间进行情感交流时产生的情感问题,搜索结果序列中包括至少两个场景对话信息中的场景问题。
其中,该对话场景库可以为人工构建场景对话信息的方式生成,或者也可以通过机器模拟场景对话信息的方式生成,或者也可以根据人机问答过程中曾经使用过的场景对话信息生成等。
进一步的,本实施例中的对话场景库可以由各个用户在一个或者多个真实场景中进行的对话场景信息构成,或者是模拟的用户在预先定义的场景下的对话场景信息构成,或者是从其他信息库中直接获取的场景对话信息构成,本实施例对对话场景信息的来源不限制。其中,真实场景可以包括购物、观影、饮食、旅游或学术讨论等相应场景。
可选的,本实施例在对用户输入的交互问题进行查找之前,首先需要通过多种方式获取到用户之间在各个场景下的对话信息,该对话信息中可以包括用户之间提出的各类问题与对该问题进行的对应解答。在获取到用户间在各个场景下的对话时,根据各个场景下对应的对话,建立包含有多个场景对话信息的对话场景库,且其中的每个场景对话信息均包括有对应场景下的多个场景问题以及与每个场景问题对应的答案。
可选的,为了保证对交互问题的对应答案的搜索速率,在采用分次查找的方法搜索该交互问题的对应答案时,本实施例可以先在对话场景库中粗略查找出至少两个与该交互问题关联的场景问题,该至少两个场景问题可以是同一个场景对话信息中包括的两个问题,也可以是多个不同场景对话信息中的场景问题;将本次查找到的至少两个与该交互问题关联的场景问题构成对应的搜索结果序列,后续仅对该搜索结果序列中的场景问题进行精确查找,加快搜索速率。
具体的,本实施例中可以在后台保存的对话场景库中对该交互问题的答案进行初始查找,本次查找属于粗略查找,不需要精确分析交互问题与对话场景库中场景对话信息的相似性,可以直接对对话场景库包括的多个场景对话信息中的多个场景问题进行大致分析,判断与用户输入的交互问题的相关性,从而在各个场景对话信息中的多个场景问题中获取与交互问题关联的至少两个场景问题,构成当前的搜索结果序列。
步骤202、将交互问题以及搜索结果序列中的各场景问题进行信息切分,得到与交互问题以及各场景问题分别对应的分词结果集。
具体的,根据交互问题在搜索结果序列中包括的各个场景问题中进行查找时,首先需要比对该交互问题与各场景问题的相似性,此时可以通过特征提取技术对交互问题与各场景问题之间的相似性进行分析,本实施例中采用信息切分技术,通过分别对交互问题和各场景问题进行对应的信息切分处理,得到对应的分词结果集。此时从交互问题或各场景问题等大样本中提取出关键目标,缩小样本范围,同时简化了选用其他的特征向量进行特征提取时的操作复杂度,不需要额外计算两者对应的特征向量的向量相似度,减少了数据运算量,提高了特征提取效率。
可选的,本实施例中对交互问题以及搜索结果序列中的各场景问题进行信息切分的具体过程进行分析,通过单字切分方法、双字切分方法或者词义切分方法均可以得到切分后对应的分词结果集。
步骤203、将各分词结果集中包括的分词进行去重处理。
其中,去重表示除去对应的分词结果中重复的、冗余的分词,仅在分词结果集中保留一个相同的分词,以减少后续的运算量。
具体的,在对交互问题和各场景问题分别进行信息切分后,得到对应的分词结果集。此时,为了确定后续操作执行的速率和正确性,本实施例中可以对与交互问题对应的分词结果集进行去重处理;也可以对与各场景问题对应的分词结果集进行去重处理,以得到更精确的比对特征。同时,本实施例中还可以对分词结果集中的各个分词进行近义词处理,在各分词结果集中将各个分词衍生出多个意思相近的词语,以保证后续比对的正确性。
具体的,在得到去重后的分词结果集后,为了减少后续比对过程中的运算量,还可以将各个分词结果集中包括的无任何实际意义的虚词去除,也就是在各个分词结果集中,除去对应的介词、连词、助词以及语气词等分词,保留具有实际含义的分词,提高后续比对的正确性。
步骤204、将各分词结果集中包括的分词进行排序,形成与交互问题对应的基础字符串以及与各场景问题对应的比对字符串。
具体的,在去除各分词结果集中的虚词后,为了便于对交互问题对应的各分词和各场景问题对应的各分词进行精确比对,本实施例中可以采用预设的排序算法,分别对与交互问题对应的分词结果集以及与各场景问题对应的分词结果集中的各个分词进行排序处理。其中,该排序算法可以是根据各分词的拼音首字母进行排序,也可以是根据各分词的笔画数量等进行排序等本实施例中对此并不作限定。
步骤205、将基础字符串分别与各比对字符串进行字符串比对,获取与基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题。
可选的,得到与交互问题对应的基础字符串和与各场景问题对应的比对字符串时,为了在各场景问题中获取与交互问题最匹配的目标场景问题,可以将基础字符串和/或通过近义词替换得到的基础字符串,分别与各个比对字符串和/或通过近义词替换得到的比对字符串进行字符串比对,从而在各个比对字符串中获取与基础字符串相同的一个比对字符串,并将该获取的比对字符串对应的场景问题作为目标场景问题。
步骤206、在对话场景库中获取与目标场景问题对应的答案发送给用户。
可选的,在搜索结果序列中获取到与交互问题最匹配的目标场景问题后,可以确定本次用户输入的交互问题所要搜索的内容与该智能机器人或相应搜索设备在对话场景库中存储的场景对话信息中的目标场景问题最为相近。此时,在为用户反馈对应搜索结果时,可以在对话场景库中包括的该目标场景问题所属的场景对话信息中获取与该目标场景问题对应的答案,作为用户本次搜索的结果,发送给用户。其中,将与目标场景问题对应的答案发送给用户可以是显示在该智能机器人或相应智能终端的显示界面,展示给用户;也可以是在该智能机器人或相应智能终端与该用户所持有的智能终端之间建立无线连接,通过无线技术将与目标场景问题对应的答案发送到该用户所持有的智能终端上,以便用户在任何地方都可以随时查看相应信息。
本实施例提供的技术方案,通过多种方式获取到用户之间在各个场景下的对话信息,建立对话场景库,并基于该对话场景库获取用户输入的交互问题对应的答案,解决了现有技术中通过人力维护语义模板来匹配对应答案,造成的信息匹配复杂度高的问题,提高了信息匹配速度,同时降低了人为维护语义模板的成本。
实施例三
图3为本发明实施例三提供的一种信息交互方法的流程图,本实施例可以与上述一个或者多个实施例中各个可选方案结合。进一步的,对于上述方案中提及的用户间交互场景,本实施例中的对话场景库中包括的场景对话信息具有场景属性标识,该场景属性标识与场景对话信息关联的用户间交互场景相匹配。具体的,本实施例中主要对于上述方案中提供的:将基础字符串分别与各比对字符串进行字符串比对时,获取与基础字符串相同的一个比对字符串对应的场景问题作为与交互问题最匹配的目标场景问题这一步骤进行具体的解释说明。可选的,参考图3,该方法可以具体包括如下步骤:
步骤301、在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列,其中,该搜索结果序列中包括至少两个场景对话信息中的场景问题。
步骤302、将交互问题以及搜索结果序列中的各场景问题进行信息切分,得到与交互问题以及各场景问题分别对应的分词结果集。
步骤303、将各分词结果集中包括的分词进行去重处理。
步骤304、将各分词结果集中包括的分词进行排序,形成与交互问题对应的基础字符串以及与各场景问题对应的比对字符串。
步骤305、将基础字符串分别与各比对字符串进行字符串比对。
步骤306、如果确定出至少两个与基础字符串相同的比对字符串,则获取与至少两个比对字符串分别对应的场景问题作为备选场景问题。
具体的,在将基础字符串和各个比对字符串进行字符串比对时,获取的与基础字符串相同的比对字符串的数量不确定,在只获取到一个比对字符串与基础字符串相同时,直接将该相同的比对字符串对应的场景问题作为目标场景问题;而在获取到至少两个比对字符串均与基础字符串相同时,此时需要根据至少两个比对字符串对应的至少两个场景问题继续与交互问题进行匹配判断。本实施例中如果确定出至少两个与基础字符串相同的比对字符串,则获取与该至少两个比对字符串分别对应的场景问题,将获取到的至少两个场景问题作为备选场景问题,以便后续根据备选场景问题继续进行与交互问题的匹配。
步骤307、获取与备选场景问题关联的场景对话信息作为备选场景对话信息。
可选的,获取到各备选场景问题时,由于场景问题包含在各个场景对话信息中,此时为了在各备选场景问题中选取与交互问题最为匹配的场景问题,还可以通过分析用户当前所处的对话场景与备选场景问题所在的场景对话信息的关联性,确定出与交互问题属于同一对话场景中的场景问题。因此,在本实施例中获取到各备选场景问题时,此时可以优先确定出与各个备选场景问题相关联的场景对话信息,也就是各个备选场景问题当前所在的各场景对话信息,并将获取的各场景对话信息作为备选场景对话信息,以便后续判断是否与用户当前所处的对话场景属于同一场景。
步骤308、将用户的用户属性标识,分别与各备选场景对话信息对应的场景属性标识进行匹配,并根据匹配结果获取一个目标备选场景对话信息。
具体的,本实施例中在对用户当前所处的对话场景和各个备选场景对话信息所处的对话场景,也就是典型用户间交互场景进行对比判断时,可以预先为用户设定对应的用户属性标识,该用户属性标识可以匹配出该用户当前所处的对话场景;也可以预先为对话场景库中包括的各个场景对话信息设定对应的场景属性标识,该场景属性标识可以匹配出对话场景库中的该场景对话信息所处的典型用户间交互场景。此时,在得到至少两个备选场景对话信息时,还可以根据用户的用户属性标识,与各个备选场景对话信息的场景属性标识进行匹配,确定出与用户属性标识最匹配的场景属性标识,并将该最匹配的场景属性标识对应的备选场景对话信息作为目标备选场景对话信息。
示例性的,若用户当前正在使用某应用程序进行网络购物,此时为该用户设定的对应用户属性标识可以为购物标志,此时若用户输入的交互问题为查询某美食城中的美食种类,而在对话场景库中预先设定的场景属性标识为饮食的场景对话信息中包括的场景问题中可以搜索到该查询某美食城中的美食种类,在对话场景库中预先设定的场景属性标识为购物的场景对话信息中包括的场景问题中也可以搜索到该查询某美食城中的美食种类,此时可以将搜索到的两个场景问题均作为备选场景问题,将该两个场景问题关联的两个场景对话信息作为备选场景对话信息;此时将用户的用户属性标识(购物),分别与两个备选场景对话信息的场景属性标识(饮食和购物)进行匹配,从而将场景属性标识与用户的用户属性标识相同的备选场景对话信息作为目标备选场景对话信息,以便后续确定与交互问题最为匹配的目标场景问题。
步骤309、将与目标备选场景对话信息对应的备选场景问题作为目标场景问题。
可选的,在确定出目标备选场景对话信息时,若要得到与用户输入的交互问题最匹配的场景问题,此时可以将目标备选场景对话信息中查找到的对应的备选场景问题作为目标场景问题,也就是与交互问题最匹配的场景问题。
步骤310、在对话场景库中获取与目标场景问题对应的答案发送给用户。
本实施例提供的技术方案,通过将至少两个与基础字符串相同的比对字符串对应的场景问题设为备选场景问题,根据用户属性标识与各备选场景问题关联的备选场景对话信息进行匹配,从而对用户当前所处的场景环境进行确定,将用户当前匹配的备选场景对话信息对应的备选场景问题作为最匹配的目标场景问题,进一步提高问题匹配的正确率。
实施例四
图4为本发明实施例四提供的一种信息交互方法的流程图,本实施例可以与上述一个或者多个实施例中各个可选方案结合。由于智能机器人或相应智能终端在将与目标场景问题对应的答案发送给用户后,用户在该答案的基础上可能还会再次提出新的交互问题。此时为了加快搜索速率,如图4所示,本实施例具体还可以包括如下步骤:
步骤401、在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列,其中,该搜索结果序列中包括至少两个场景对话信息中的场景问题。
步骤402、将搜索结果序列中包括的各场景问题分别对应的场景对话信息进行标注。
具体的,由于智能机器人或智能终端在将本次用户输入的交互问题对应的答案发送给用户后,用户可以在该答案的基础上再次输入与本次的交互问题相关的新的交互问题。此时,为了简化后续再次查找时的操作复杂度,对于用户再次输入的新的交互问题,可以直接在本次获取的搜索结果序列中包括的各场景问题分别对应的场景对话信息中进行再次搜索。
因此,本实施例可以在每次根据用户输入的交互问题,在对话场景库中进行初始查找,获取到与交互问题关联的搜索结果序列时,直接将搜索结果序列中包括的各场景问题分别对应的场景对话信息进行标注,以便后续在本次搜索答案的基础上再次搜索新的交互问题时,可以直接在标注的场景对话信息中进行查找,简化搜索步骤,提高搜索速率。
步骤403、根据交互问题在搜索结果序列中进行精准查找,在搜索结果序列中获取一个与交互问题最匹配的目标场景问题。
步骤404、在对话场景库中获取与目标场景问题对应的答案发送给用户。
步骤405、获取用户针对答案输入的新的交互问题,并将新的交互问题与对话场景库中标注的场景对话信息中的场景问题进行初始查找。
具体的,在将本次搜索中与目标场景问题对应的答案发送给用户后,若用户针对该答案再次提出一个新的交互问题,并在该智能机器人或相应智能终端中进行再次搜索查找。可选的,该智能机器人或相应智能终端获取该用户针对前一次返回的答案在搜索界面中输入的新的交互问题,由于新的交互问题与上一次的交互问题可能存在一定的关联性,此时为了加快搜索速率,对于新的交互问题可以直接在对前一次的交互问题进行搜索查找时,在对话场景库中标注的场景对话信息中的场景问题中进行初始查找,以判断是否可以尽快得到匹配的场景问题。
步骤406、判断在标注的场景对话信息中是否搜索得到场景问题,若是,执行步骤407;若否,返回执行步骤401。
可选的,根据用户输入的新的交互问题,在标注的场景对话信息中包括的场景问题中进行初始查找时,由于是对对话场景库中部分场景对话信息的查找,此时可能查找不到匹配的场景问题,因此,首先需要判断当前根据新的交互问题,在标注的场景对话信息中包括的场景问题中是否搜索得到场景问题,如果未在标注的场景对话信息中搜索得到任一个场景问题,此时需要返回执行步骤401中在对话场景库中进行初始查找,获取与新的交互问题关联的搜索结果序列的操作,以便对对话场景库中的全部场景对话信息进行初始查找,得到关联的包含至少两个场景对话信息中的场景问题的搜索结果序列,再对该搜索结果序列进行精准查找,从而得到与新的交互问题最匹配的新的场景问题,并获取与新的场景问题对应的答案作为与新的交互问题对应的答案发送给用户。而如果在标注的场景对话信息中可以搜索得到场景问题时,执行下述步骤。
步骤407、判断在标注的场景对话信息中是否仅搜索得到一个场景问题,若是,执行步骤408;若否,执行步骤409。
具体的,如果在标注的场景对话信息中可以搜索得到场景问题时,还需要判断在标注的场景对话信息中是否仅搜索得到一个场景问题,搜索得到的场景问题数量不同,对应执行的操作也不同。
步骤408、将与搜索得到的场景问题对应的答案发送给用户。
可选的,如果仅在标注的场景对话信息中搜索得到一个场景问题,此时直接将本次搜索得到的场景问题所在的对话场景信息中包括的与本次搜索得到的场景问题对应的答案作为与新的交互问题对应的答案,发送给用户。
步骤409、根据搜索得到的场景问题构造新的搜索结果序列;并后返回继续执行步骤403,以获取与新的交互问题对应的答案发送给用户。
可选的,如果在标注的场景对话信息中搜索得到至少两个场景问题,则直接根据搜索得到的至少两个场景问题构造出与新的交互问题关联的新的搜索结果序列。此时返回执行步骤403中根据交互问题在搜索结果序列中进行精准查找的操作,此时则是根据新的交互问题在新的搜索结果序列进行精准查找,从而在新的搜索结果序列中获取一个与新的交互问题最匹配的目标场景问题,并在对话场景库中该目标场景问题对应的场景对话信息中获取与该目标场景问题对应答案作为与新的交互问题对应的答案,发送给用户。
本实施例提供的技术方案,通过对初始查找的搜索结果序列中的各场景问题对应的场景对话信息进行标注,以便在后续根据本次反馈的答案继续提出新的交互问题时,可以直接在标注的场景对话信息中查找,缩小了搜索范围,提高了问题匹配的速度。
实施例五
图5为本发明实施例五提供的一种文本信息搜索装置的结构示意图,具体的,如图5所示,该装置可以包括:
查找信息集合获取模块510,用于获取输入信息,并获取与所述输入信息匹配的查找信息集合;
信息切分模块520,用于将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集;
去重处理模块530,用于将各所述分词结果集中包括的分词进行去重处理;
排序模块540,用于将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串;
比对模块550,用于将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的查找信息作为与所述输入信息匹配的命中结果。
本实施例提供的技术方案,通过采用信息切分技术得到输入信息与查找信息集合中的各查找信息的分词结果集,并进行去重和排序处理,对得到的基础字符串与各比对字符串进行精准比对,减少了数据特征提取的运算量,提高了特征提取效率。
进一步的,查找信息集合获取模块510可以包括:输入信息获取单元,用于从提供信息搜索服务的终端或者服务器中获取用户输入的文本信息,其中,用户输入的文本信息可以是用户的搜索内容中包含的各类型文件的标题名称、文本文件中的时间、地点、人物、事件等可以对搜索的内容进行唯一识别的信息,也可以是用户对某一自身感兴趣的内容存在的疑惑,还可以是用户与另一用户之间进行情感交流时产生的情感问题等;输入信息匹配单元,用于在获取用户的输入信息后,将输入信息与信息库中包括的全部内容进行匹配,获取与输入信息匹配的查找信息集合。
进一步的,输入信息匹配单元可以具体用于:采用设定搜索引擎技术,根据用户输入的信息,在信息库包括的多个信息中进行搜索处理,将搜索得到的信息问题构成查找信息集合;可选的,本实施例中的搜索引擎技术可以包括:elasticsearch、solr、lucene等各类引擎技术,以缩小对用户输入信息的筛选范围。
进一步的,信息切分模块520可以包括:输入信息切分单元,用于将输入信息进行信息切分,得到与输入信息对应的分词结果集;查找信息切分单元,用于将查找信息集合中的各查找信息进行信息切分,得到与各查找信息分别对应的分词结果集。
进一步的,输入信息切分单元可以具体用于执行下述至少一项操作:采用单字切分方法,将输入信息切分为单字信息集合作为与输入信息对应的分词结果集;采用双字切分方法,将输入信息切分为双字信息集合作为与输入信息对应的分词结果集;以及采用词义切分方法,将输入信息切分为词义信息集合作为与输入信息对应的分词结果集。
进一步的,查找信息切分单元可以具体用于执行下述至少一项操作:采用单字切分方法,将查找信息集合中的各查找信息切分为单字信息集合作为与各查找信息分别对应的分词结果集;采用双字切分方法,将查找信息集合中的各查找信息切分为双字信息集合作为与各查找信息分别对应的分词结果集;以及采用词义切分方法,将查找信息集合中的各查找信息切分为词义信息集合作为与各查找信息分别对应的分词结果集。
进一步的,去重处理模块530可以具体用于:去除与输入信息对应的分词结果集中的重复的、冗余的分词,仅在与输入信息对应的分词结果集中保留一个相同的分词;以及去除与各查找信息分别对应的分词结果集中的重复的、冗余的分词,仅在与各查找信息分别对应的分词结果集中保留一个相同的分词。
进一步的,去重处理模块530还可以用于:在得到去重后的分词结果集后,去除与输入信息对应的分词结果集中的无任何实际意义的虚词,也就是除去对应的介词、连词、助词以及语气词等分词;以及去除与各查找信息分别对应的分词结果集中的无任何实际意义的虚词。
进一步的,排序模块540可以具体用于:采用预设的排序算法,分别对与输入信息对应的分词结果集以及与各查找信息对应的分词结果集中的各个分词进行排序处理,分别得到与输入信息对应的基础字符串和与各查找信息对应的比对字符串,其中,该排序算法可以是根据各分词的拼音首字母进行排序,也可以是根据各分词的笔画数量等进行排序,本实施例中对此并不作限定。
进一步的,排序模块540还可以具体用于:分别对与输入信息对应的分词结果集和与各查找信息对应的分词结果集进行近义词处理,通过将得到的近义词替换对应的基础字符串或比对字符串中对应的分词,得到另一新的基础字符串或比对字符串,在后续也可以对通过近义词替换得到的基础字符串和比对字符串进行比对,判断输入信息与各查找信息的匹配程度。
进一步的,比对模块550可以具体用于:将基础字符串和/或通过近义词替换得到的基础字符串,分别与各个比对字符串和/或通过近义词替换得到的比对字符串进行字符串比对,从而在各个比对字符串中获取与基础字符串相同的一个比对字符串,并将该获取的比对字符串对应的查找信息作为目标查找信息。
本实施例提供的文本信息搜索装置可适用于上述任意实施例提供的文本信息搜索方法,具备相应的功能和有益效果。
实施例六
图6为本发明实施例六提供的一种信息交互装置的结构示意图,具体的,如图6所示,该装置可以包括:
搜索结果序列获取模块610,用于在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列;
其中,所述对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,所述搜索结果序列中包括至少两个场景对话信息中的场景问题;
问题切分模块620,用于将所述交互问题以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集;
分词去重模块630,用于将各所述分词结果集中包括的分词进行去重处理;
分词排序模块640,用于将各所述分词结果集中包括的分词进行排序,形成与所述交互问题对应的基础字符串以及与各所述场景问题对应的比对字符串;
字符串比对模块650,用于将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题;
答案发送模块660,用于在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户。
本实施例提供的技术方案,通过多种方式获取到用户之间在各个场景下的对话信息,建立对话场景库,并基于该对话场景库获取用户输入的交互问题对应的答案,解决了现有技术中通过人力维护语义模板来匹配对应答案,造成的信息匹配复杂度高的问题,提高了信息匹配速度,同时降低了人为维护语义模板的成本。
进一步的,搜索结果序列获取模块610可以具体用于:通过人工构建场景对话信息的方式生成对话场景库;或者也可以通过机器模拟场景对话信息的方式生成对话场景库;或者也可以根据人机问答过程中曾经使用过的场景对话信息生成对话场景库。
进一步的,搜索结果序列获取模块610还可以具体用于:通过各个用户在一个或者多个真实场景中进行的对话场景信息构成对话场景库;或者是通过模拟的用户在预先定义的场景下的对话场景信息构成对话场景库;或者是通过从其他信息库中直接获取的场景对话信息构成对话场景库,本实施例对对话场景信息的来源不限制。其中,真实场景可以包括购物、观影、饮食、旅游或学术讨论等相应场景。
进一步的,搜索结果序列获取模块610还可以具体用于:在对话场景库中粗略查找出至少两个与该交互问题关联的场景问题,该至少两个场景问题可以是同一个场景对话信息中包括的两个问题,也可以是多个不同场景对话信息中的场景问题,将查找到的至少两个与该交互问题关联的场景问题构成对应的搜索结果序列。
进一步的,搜索结果序列获取模块610还可以具体用于:对交互问题的答案进行初始的粗略查找,不需要精确分析交互问题与对话场景库中场景对话信息的相似性,可以直接对对话场景库包括的多个场景对话信息中的多个场景问题进行大致分析,判断与用户输入的交互问题的相关性,从而在各个场景对话信息中的多个场景问题中获取与交互问题关联的至少两个场景问题,构成当前的搜索结果序列。
进一步的,问题切分模块620可以具体用于:通过单字切分方法、双字切分方法或者词义切分方法分别对交互问题和各场景问题进行对应的信息切分处理,得到对应的分词结果集。
进一步的,分词去重模块630可以具体用于:在对交互问题和各场景问题分别进行信息切分后,对与交互问题对应的分词结果集进行去重处理,也可以对与各场景问题对应的分词结果集进行去重处理,同时,还可以对分词结果集中的各个分词进行近义词处理,在各分词结果集中将各个分词衍生出多个意思相近的词语。
进一步的,分词去重模块630还可以具体用于:在得到去重后的分词结果集后,将各个分词结果集中包括的无任何实际意义的虚词去除,也就是在各个分词结果集中,除去对应的介词、连词、助词以及语气词等分词,保留具有实际含义的分词。
进一步的,分词排序模块640可以具体用于:在去除各分词结果集中的虚词后,采用预设的排序算法,分别对与交互问题对应的分词结果集以及与各场景问题对应的分词结果集中的各个分词进行排序处理,分别得到与交互问题对应的基础字符串和与各场景问题对应的比对字符串。
进一步的,字符串比对模块650可以具体用于:在得到与交互问题对应的基础字符串和与各场景问题对应的比对字符串之后,将基础字符串和/或通过近义词替换得到的基础字符串,分别与各个比对字符串和/或通过近义词替换得到的比对字符串进行字符串比对,从而在各个比对字符串中获取与基础字符串相同的一个比对字符串,并将该获取的比对字符串对应的场景问题作为目标场景问题。
进一步的,答案发送模块660可以具体用于:在搜索结果序列中获取到与交互问题最匹配的目标场景问题后,在对话场景库中包括的该目标场景问题所属的场景对话信息中获取与该目标场景问题对应的答案,作为用户本次搜索的结果,发送给用户。
进一步的,上述装置还可以包括:场景对话标注单元,用于在获取与交互问题关联的搜索结果序列之后,将搜索结果序列中包括的各场景问题分别对应的场景对话信息进行标注。
此时,上述装置还可以包括:最新信息交互模块,用于在对话场景库中获取与目标场景问题对应的答案发送给用户之后,获取用户针对该答案输入的新的交互问题,并将新的交互问题与对话场景库中标注的场景对话信息中的场景问题进行初始查找;如果仅在标注的场景对话信息中搜索得到一个场景问题,则将与搜索得到的场景问题对应的答案发送给用户;如果在标注的场景对话信息中搜索得到至少两个场景问题,则根据搜索得到的场景问题构造新的搜索结果序列;返回执行根据交互问题在搜索结果序列中进行精准查找的操作,以获取与新的交互问题对应的答案发送给用户;如果未在标注的场景对话信息中搜索得到任一场景问题,则返回执行在对话场景库中进行初始查找,获取与交互问题关联的搜索结果序列的操作,以获取与新的交互问题对应的答案发送给用户。
本实施例提供的信息交互装置可适用于上述任意实施例提供的信息交互方法,具备相应的功能和有益效果。
实施例七
参照图7,图7是本发明实施例七提供的一种设备的结构示意图,如图7所示,该设备包括处理器710、存储器720、输入装置730和输出装置740;设备中处理器710的数量可以是一个或多个,图7中以一个处理器710为例;设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器720作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本信息搜索方法以及信息交互方法对应的程序指令/模块(例如,文本信息搜索装置中的查找信息集合获取模块510、信息切分模块520、去重处理模块530、排序模块540和比对模块550,或者信息交互装置中的搜索结果序列获取模块610、问题切分模块620、分词去重模块630、分词排序模块640、字符串比对模块650和答案发送模块660)。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文本信息搜索方法或者信息交互方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
实施例八
本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种文本信息搜索方法或者一种信息交互方法,一种文本信息搜索方法包括:
获取输入信息,并获取与所述输入信息匹配的查找信息集合;
将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集;
将各所述分词结果集中包括的分词进行去重处理;
将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串;
将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的查找信息作为与所述输入信息匹配的命中结果。
一种信息交互方法包括:
在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列;
其中,所述对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,所述搜索结果序列中包括至少两个场景对话信息中的场景问题;
将所述交互问题以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集;
将各所述分词结果集中包括的分词进行去重处理;
将各所述分词结果集中包括的分词进行排序,形成与所述交互问题对应的基础字符串以及与各所述场景问题对应的比对字符串;
将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题;
在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机程序可执行不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本信息搜索方法以及信息交互方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本信息搜索装置与信息交互装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种文本信息搜索方法,其特征在于,包括:
获取输入信息,并获取与所述输入信息匹配的查找信息集合;
将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集;
将各所述分词结果集中包括的分词进行去重处理;
将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串;
将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的查找信息作为与所述输入信息匹配的命中结果。
2.根据权利要求1所述的方法,其特征在于,获取与所述输入信息匹配的查找信息集合,包括:
采用设定搜索引擎技术,根据所述输入信息,在信息库中包括的多个信息中进行搜索处理,将搜索得到的信息问题构成所述查找信息集合。
3.根据权利要求2所述的方法,其特征在于,所述搜索引擎技术包括以下任一种或多种组合:elasticsearch、solr或者lucene。
4.根据权利要求1-3任一项所述的方法,其特征在于,将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集,具体包括下述至少一项:
采用单字切分方法,将所述输入信息以及所述查找信息集合中的各所述查找信息分别切分为单字信息集合作为所述分词结果集;
采用双字切分方法,将所述输入信息以及所述查找信息集合中的各所述查找信息分别切分为双字信息集合作为所述分词结果集;以及
采用词义切分方法,将所述输入信息以及所述查找信息集合中的各所述查找信息分别切分为词义信息集合作为所述分词结果集。
5.根据权利要求4所述的方法,其特征在于,在将各所述分词结果集中包括的分词进行排序之前,还包括:
去除各所述分词结果集中包括的虚词,其中,所述虚词包括:介词、连词、助词以及语气词。
6.根据权利要求1所述的方法,其特征在于,将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串,具体包括:
按照简单字节码排序方法,将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串。
7.一种信息交互方法,其特征在于,包括:
在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列;
其中,所述对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,所述搜索结果序列中包括至少两个场景对话信息中的场景问题;
将所述交互问题以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集;
将各所述分词结果集中包括的分词进行去重处理;
将各所述分词结果集中包括的分词进行排序,形成与所述交互问题对应的基础字符串以及与各所述场景问题对应的比对字符串;
将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题;
在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户。
8.根据权利要求7所述的方法,其特征在于,在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列,包括:
采用设定搜索引擎技术,根据用户输入的交互问题,在所述对话场景库包括的多个场景问题中进行搜索处理,将搜索得到的场景问题构成所述搜索结果序列。
9.根据权利要求7或8所述的方法,其特征在于,将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题,具体包括:
将所述基础字符串分别与各所述比对字符串进行字符串比对;
如果确定出至少两个与所述基础字符串相同的比对字符串,则获取与所述至少两个比对字符串分别对应的场景问题作为备选场景问题;
获取与各所述备选场景问题关联的场景对话信息作为备选场景对话信息;
将所述用户的用户属性标识,分别与各所述备选场景对话信息对应的场景属性标识进行匹配,并根据匹配结果获取一个目标备选场景对话信息;
将与所述目标备选场景对话信息对应的备选场景问题作为所述目标场景问题。
10.根据权利要求7或8所述的方法,其特征在于,在获取与所述交互问题关联的搜索结果序列之后,还包括:
将所述搜索结果序列中包括的各场景问题分别对应的场景对话信息进行标注;
在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户之后,还包括:
获取所述用户针对所述答案输入的新的交互问题,并根据所述新的交互问题,在标注的场景对话信息中的场景问题中进行搜索;
如果仅在标注的场景对话信息中搜索得到一个场景问题,则将与搜索得到的场景问题对应的答案发送给所述用户;
如果在标注的场景对话信息中搜索得到至少两个场景问题,则根据搜索得到的所述场景问题构造新的搜索结果序列后,返回执行将所述输入信息以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集的操作,以获取与所述新的交互问题对应的答案发送给所述用户;
如果未在标注的场景对话信息中搜索得到任一场景问题,则返回执行在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列的操作,以获取与所述新的交互问题对应的答案发送给所述用户。
11.一种文本信息搜索装置,其特征在于,包括:
查找信息集合获取模块,用于获取输入信息,并获取与所述输入信息匹配的查找信息集合;
信息切分模块,用于将所述输入信息以及所述查找信息集合中的各所述查找信息进行信息切分,得到与所述输入信息以及各所述查找信息分别对应的分词结果集;
去重处理模块,用于将各所述分词结果集中包括的分词进行去重处理;
排序模块,用于将各所述分词结果集中包括的分词进行排序,形成与输入信息对应的基础字符串以及与各所述查找信息对应的比对字符串;
比对模块,用于将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的查找信息作为与所述输入信息匹配的命中结果。
12.一种信息交互装置,其特征在于,包括:
搜索结果序列获取模块,用于在对话场景库中,获取与用户输入的交互问题关联的搜索结果序列;
其中,所述对话场景库包括多个场景对话信息,每个场景对话信息包括多个场景问题及与每个场景问题对应的答案,所述搜索结果序列中包括至少两个场景对话信息中的场景问题;
问题切分模块,用于将所述交互问题以及所述搜索结果序列中的各所述场景问题进行信息切分,得到与所述交互问题以及各所述场景问题分别对应的分词结果集;
分词去重模块,用于将各所述分词结果集中包括的分词进行去重处理;
分词排序模块,用于将各所述分词结果集中包括的分词进行排序,形成与所述交互问题对应的基础字符串以及与各所述场景问题对应的比对字符串;
字符串比对模块,用于将所述基础字符串分别与各所述比对字符串进行字符串比对,获取与所述基础字符串相同的一个比对字符串对应的场景问题作为目标场景问题;
答案发送模块,用于在所述对话场景库中获取与所述目标场景问题对应的答案发送给所述用户。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的文本信息搜索方法,或者实现如权利要求7~10中任一项所述的信息交互方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6中任一项所述的文本信息搜索方法,或者实现如权利要求7~10中任一项所述的信息交互方法。
CN201811280654.9A 2018-10-30 2018-10-30 文本信息搜索和信息交互方法、装置、设备及存储介质 Active CN109492081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811280654.9A CN109492081B (zh) 2018-10-30 2018-10-30 文本信息搜索和信息交互方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811280654.9A CN109492081B (zh) 2018-10-30 2018-10-30 文本信息搜索和信息交互方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109492081A true CN109492081A (zh) 2019-03-19
CN109492081B CN109492081B (zh) 2022-05-27

Family

ID=65691900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811280654.9A Active CN109492081B (zh) 2018-10-30 2018-10-30 文本信息搜索和信息交互方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109492081B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069604A (zh) * 2019-04-23 2019-07-30 北京字节跳动网络技术有限公司 文本搜索方法、装置和计算机可读存储介质
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质
CN110489381A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 外接资源的识别方法及系统
CN111552787A (zh) * 2020-04-23 2020-08-18 支付宝(杭州)信息技术有限公司 问答处理方法、装置、设备及存储介质
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110077A (zh) * 2007-08-24 2008-01-23 新诺亚舟科技(深圳)有限公司 在手持学习终端上实现的联合搜索的方法
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
CN101140573A (zh) * 2006-09-05 2008-03-12 阿里巴巴公司 一种实现信息搜索的方法及系统
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101814080A (zh) * 2006-09-05 2010-08-25 阿里巴巴集团控股有限公司 一种实现信息搜索的方法及装置
US8126877B2 (en) * 2008-01-23 2012-02-28 Globalspec, Inc. Arranging search engine results
US20120232897A1 (en) * 2008-06-05 2012-09-13 Nathan Pettyjohn Locating Products in Stores Using Voice Search From a Communication Device
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104731895A (zh) * 2015-03-18 2015-06-24 北京京东尚科信息技术有限公司 自动应答的方法和装置
CN107766511A (zh) * 2017-10-23 2018-03-06 深圳市前海众兴电子商务有限公司 智能问答方法、终端及存储介质
CN108509609A (zh) * 2018-04-03 2018-09-07 广州幽联信息技术有限公司 智能人机交互方法、装置、计算机设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140573A (zh) * 2006-09-05 2008-03-12 阿里巴巴公司 一种实现信息搜索的方法及系统
CN101814080A (zh) * 2006-09-05 2010-08-25 阿里巴巴集团控股有限公司 一种实现信息搜索的方法及装置
CN101110077A (zh) * 2007-08-24 2008-01-23 新诺亚舟科技(深圳)有限公司 在手持学习终端上实现的联合搜索的方法
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
US8126877B2 (en) * 2008-01-23 2012-02-28 Globalspec, Inc. Arranging search engine results
US20120232897A1 (en) * 2008-06-05 2012-09-13 Nathan Pettyjohn Locating Products in Stores Using Voice Search From a Communication Device
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104731895A (zh) * 2015-03-18 2015-06-24 北京京东尚科信息技术有限公司 自动应答的方法和装置
CN107766511A (zh) * 2017-10-23 2018-03-06 深圳市前海众兴电子商务有限公司 智能问答方法、终端及存储介质
CN108509609A (zh) * 2018-04-03 2018-09-07 广州幽联信息技术有限公司 智能人机交互方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨书凡 等: "基于排序树的字符串集合快速匹配算法", 《湘潭矿业学院学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置
CN110069604A (zh) * 2019-04-23 2019-07-30 北京字节跳动网络技术有限公司 文本搜索方法、装置和计算机可读存储介质
CN110069604B (zh) * 2019-04-23 2022-04-08 北京字节跳动网络技术有限公司 文本搜索方法、装置和计算机可读存储介质
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质
CN110489381A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 外接资源的识别方法及系统
CN111552787A (zh) * 2020-04-23 2020-08-18 支付宝(杭州)信息技术有限公司 问答处理方法、装置、设备及存储介质
CN111552787B (zh) * 2020-04-23 2023-06-30 支付宝(杭州)信息技术有限公司 问答处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109492081B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN109492081A (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN106991092B (zh) 基于大数据挖掘相似裁判文书的方法和设备
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
CN109299320B (zh) 一种信息交互方法、装置、计算机设备和存储介质
CN111459799B (zh) 一种基于Github的软件缺陷检测模型建立、检测方法及系统
CN107704453A (zh) 一种文字语义分析方法、文字语义分析终端及存储介质
CN108846126A (zh) 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN108959559B (zh) 问答对生成方法和装置
CN110209828A (zh) 案件查询方法及案件查询装置、计算机设备和存储介质
CN107168991A (zh) 一种搜索结果展示方法和装置
KR100835290B1 (ko) 문서 분류 시스템 및 문서 분류 방법
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
WO2021112984A1 (en) Feature and context based search result generation
CN113312474A (zh) 一种基于深度学习的法律文书的相似案件智能检索系统
CN108959529A (zh) 问题答案类型的确定方法、装置、设备及存储介质
CN111159334A (zh) 用于房源跟进信息处理的方法及系统
CN113656561A (zh) 实体词识别方法、装置、设备、存储介质及程序产品
CN104615621B (zh) 搜索中的相关性处理方法和系统
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
US20050138028A1 (en) Processing, browsing and searching an electronic document
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统
CN112541091A (zh) 图像搜索方法、装置、服务器和存储介质
CN114238735B (zh) 一种互联网数据智能采集方法
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant