CN107704506B - 智能应答的方法和装置 - Google Patents

智能应答的方法和装置 Download PDF

Info

Publication number
CN107704506B
CN107704506B CN201710764118.5A CN201710764118A CN107704506B CN 107704506 B CN107704506 B CN 107704506B CN 201710764118 A CN201710764118 A CN 201710764118A CN 107704506 B CN107704506 B CN 107704506B
Authority
CN
China
Prior art keywords
question
standard
answered
keyword
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710764118.5A
Other languages
English (en)
Other versions
CN107704506A (zh
Inventor
杨崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710764118.5A priority Critical patent/CN107704506B/zh
Publication of CN107704506A publication Critical patent/CN107704506A/zh
Application granted granted Critical
Publication of CN107704506B publication Critical patent/CN107704506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种智能应答的方法和装置。本申请提供的智能应答的方法包括:服务器根据终端发送的待答问题,得到待答问题对应的标准语言形式的第一关键词文本,待答问题为用户语言;若多个标准问题中存在候选标准问题,服务器获取包括待答问题所有关键词的第二关键词文本,标准问题为标准语言;服务器根据第一关键词文本和候选标准问题各自的VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度;服务器根据待答问题与每个候选标准问题的相似度,获取待答问题的答案。本申请的智能应答的方法和装置,降低了当用户语言与标准语言不相同时,服务器获取的答案与待答问题不相关的几率。

Description

智能应答的方法和装置
技术领域
本申请涉及智能应答技术,尤其涉及一种智能应答的方法和装置。
背景技术
智能应答(Question and Answering,简称QA)技术,可以根据用户输入的自然语言的问题给出准确人性化的回答,目前在医疗、通信等领域都有着广泛的应用,智能办公、智能客服机器人已经能够代替部分人工工作。比较常见的智能问答系统为基于知识库的问答系统,现阶段最常用的知识库为常见问题库(Frequently Asked Questions,简称FAQ),FAQ库是通过收集整理一些常见的标准问题和对应的标准答案建立的知识库。
基于FAQ库的智能应答的方法一般为:服务器获取用户通过终端输入的待答问题,若待答问题的语言为用户语言,FAQ库中存储的标准问题的语言为标准语言,用户语言和标准语言不相同,则服务器先将待答问题机器翻译成标准语言形式的问题,称为处理后的待答问题。接着提取处理后的待答问题的所有关键词,得到关键词文本。若FAQ库中存在候选标准问题,候选标准问题为包括处理后的待答问题的至少一个关键词的标准问题,则获取关键词文本和各候选标准问题的向量空间模型(Vector Space Model,简称VSM)向量,并根据关键词文本的VSM向量和各候选标准问题各自的VSM向量,得到待答问题与每个候选标准问题的相似度,最后根据各相似度从各候选标准问题中确定一个目标问题,将该目标问题对应的答案返回给终端,实现了智能应答。
但是,上述基于FAQ库的智能应答的方法,在待答问题的用户语言与标准问题的标准语言不相同时,需要将待答问题机器翻译成标准语言形式的问题,若机器翻译出现错误,则获取的待答问题和各候选标准问题的相似度的准确度低,进而造成获取的答案与待答问题不相关。
发明内容
本申请提供一种智能应答的方法和装置,降低了当待答问题的用户语言与标准问题的标准语言不相同时,服务器获取的答案与待答问题不相关的几率。
第一方面,本申请提供一种智能应答的方法,待答问题的语言为用户语言,服务器中预存的多个标准问题的语言为标准语言,所述用户语言和所述标准语言不相同,包括:
服务器根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本,所述第一关键词文本包括处理后的待答问题的所有关键词,所述处理后的待答问题为将所述待答问题转化为标准语言形式后的问题;
若所述多个标准问题中存在至少一个候选标准问题,所述候选标准问题为包括所述第一关键词文本中至少一个关键词的标准问题,则所述服务器获取所述待答问题对应的第二关键词文本,所述第二关键词文本包括所述待答问题的所有关键词;
所述服务器根据所述第一关键词文本和所述候选标准问题各自的空间向量模型VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度;所述VSM向量为文本的各关键词各自在所述文本中的权重值组成的向量,所述主题分布向量为各预设主题在文本中各自出现的概率组成的向量;
所述服务器根据所述待答问题与每个候选标准问题的相似度,获取所述待答问题的答案;所述待答问题的答案为所有候选标准问题中与所述待答问题的相似度最大、且与所述待答问题的相似度大于预设阈值的候选标准问题的标准答案;
所述服务器将所述待答问题的答案发送至所述终端。
由于在获取候选标准问题与待答的相似度时,同时采用了VSM向量和主题分布向量,即在考虑关键词匹配的同时,考虑了语义的关联性;且在考虑了语义的关联性时,没有将待答问题进行机器翻译,降低了由于机器翻译错误造成的得到的候选标准问题与待答问题的相似度不准确的几率,进而减少了服务器获取的答案与待答问题不相关的现象发生的几率,提高了服务器获取的待答问题的答案的准确度。
在一种可能的设计中,若预设的多个标准问题中不存在候选标准问题,则所述服务器获取所述待答问题对应的第二关键词文本;
所述服务器根据所述第一关键词文本的VSM向量和所述第二关键词文本的主题分布向量,得到特定相似度;
所述服务器根据所述特定相似度,得到预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述服务器将所述预设答案发送至所述终端。
当服务器预存的多个标准问题中不存在候选标准问题时,返回给用户预设答案,可防止在服务器中不存在候选标准问题时,返回不相关的答案给用户。
在一种可能的设计中,若预设的多个标准问题中不存在候选标准问题,则所述服务器获取预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述服务器将所述预设答案发送至所述终端。
若预设的多个标准问题中不存在候选标准问题,则服务器直接获取预设答案,可减轻服务器的消耗。
在一种可能的设计中,所述服务器根据所述第一关键词文本和所述候选标准问题各自的VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度,包括:
对于每个候选标准问题,所述服务器根据所述第一关键词文本的VSM向量和所述候选标准问题的VSM向量的余弦距离,得到VSM相似度;
所述服务器根据所述第二关键词文本的主题分布向量和所述候选标准问题的主题分布向量的相对熵,得到语义相似度;
所述服务器根据所述VSM相似度和语义相似度的线性加权和,得到所述待答问题和所述候选标准问题的相似度。
在一种可能的设计中,所述服务器根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本,包括:
所述服务器将所述待答问题转换为所述标准语言形式的问题,得到处理后的待答问题;
所述服务器提取所述处理后的待答问题的所有关键词,得到所述第一关键词文本。
在一种可能的设计中,在所述服务器根据所述第一关键词文本和所述候选标准问题各自的VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度之前,还包括:
对于每个候选标准问题,所述服务器根据所述候选标准问题的所有关键词和主题-词语共现频率矩阵,得到所述候选标准问题的主题分布向量;所述主题-词语共现频率矩阵为各所述预设主题采用各训练词语的概率组成的矩阵,是所述服务器对多个训练文档训练得到的;每个训练文档包括多个训练问题,每个训练文档包括的各训练问题对应的答案的语义相同,且每个训练文档包括的各训练问题的语言不同,多个所述训练词语为多个所述训练文档对应的所有训练问题的关键词;
所述服务器根据所述第二关键词文本和所述主题-词语共现频率矩阵,得到所述第二关键词文本的主题分布向量。
在一种可能的设计中,所述服务器根据所述候选标准问题的所有关键词和主题-词语共现频率矩阵,得到所述候选标准问题的主题分布向量,包括:
所述服务器根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述候选标准问题包括的各关键词进行主题采样,得到所述候选标准问题的主题分布向量。
在一种可能的设计中,所述服务器根据所述第二关键文本和所述主题-词语共现频率矩阵,得到所述第二关键词文本的主题分布向量,包括:
所述服务器根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述第二关键词文本包括的各关键词进行主题采样,得到所述第二关键词文本的主题分布向量。
在一种可能的设计中,在所述服务器根据所述第一关键词文本和所述候选标准问题各自的VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度之前,还包括:
对于每个候选标准问题,所述服务器从所述候选标准问题的所有关键词中选出至少一个第二关键词,所述第二关键词为所述第一关键文本中的关键词;
所述服务器根据预存的各所述第二关键词的TF-IDF值,得到所述候选标准问题的VSM向量;
所述服务器根据所述第一关键词文本中各关键词各自的词频和反文档频率,得到所述第一关键词文本的VSM向量。
在一种可能的设计中,所述服务器根据所述第一关键词文本中各关键词各自的词频和反文档频率,得到所述第一关键词文本的VSM向量,包括:
对于第一关键词文本包括的每个第一关键词,所述服务器获取预存的所述第一关键词的反文档频率,所述第一关键词为所述第一关键词文本中的任一关键词;
所述服务器统计所述第一关键词在所述处理后的待答问题中出现的次数以及所述处理后的待答问题包括的单词的个数;
所述服务器根据所述次数和所述个数的比值,得到所述第一关键词的词频;
所述服务器根据所述反文档频率和所述词频之积,得到所述第一关键词的词频-反文档频率TF-TDF值;
所述服务器根据各所述第一关键词各自的TF-TDF值,得到所述第一关键词文本的VSM向量。
在一种可能的设计中,在所述服务器根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本之前,还包括:
所述服务器获取多个所述标准问题以及各所述标准问题各自对应的标准答案;
所述服务器获取每个所述标准问题的所有关键词各自的TF-IDF值和反文档频率;
所述服务器获取所述多个训练文档;
所述服务器提取所述多个训练文档对应的所有训练问题的关键词,得到多个所述训练词语;
所述服务器对所述多个训练词语进行主题采样,得到所述主题-词语共现频率矩阵;其中,对于当前训练词语进行主题采样时,所依据的其它训练词语的语言与所述当前训练词语的语言相同。
由于训练过程中,所有的训练词语是放在一起依次训练或者主题采样的,所以对于不同语言形式的训练词语而言,其训练规则相同,因此,任何属于训练文档对应的语言形式的文本均可根据该主题-词语共现频率矩阵得到文本对应的主题分布向量,从而根据主题分布向量计算不同语言形式的文本的相似度时准确度也很高。
第二方面,本申请提供一种智能应答的装置,待答问题的语言为用户语言,智能应答的装置中预存的多个标准问题的语言为标准语言,所述用户语言和所述标准语言不相同,包括:
关键词文本获取模块,用于根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本,所述第一关键词文本包括处理后的待答问题的所有关键词,所述处理后的待答问题为将所述待答问题转化为标准语言形式后的问题;
关键词文本获取模块,还用于若所述多个标准问题中存在至少一个候选标准问题,所述候选标准问题为包括所述第一关键词文本中至少一个关键词的标准问题,则获取所述待答问题对应的第二关键词文本,所述第二关键词文本包括所述待答问题的所有关键词;
相似度获取模块,用于根据所述第一关键词文本和所述候选标准问题各自的空间向量模型VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度;所述VSM向量为文本的各关键词各自在所述文本中的权重值组成的向量,所述主题分布向量为各预设主题在文本中各自出现的概率组成的向量;
答案获取模块,用于根据所述待答问题与每个候选标准问题的相似度,获取所述待答问题的答案;所述待答问题的答案为所有候选标准问题中与所述待答问题的相似度最大、且与所述待答问题的相似度大于预设阈值的候选标准问题的标准答案;
发送模块,用于将所述待答问题的答案发送至所述终端。
在一种可能的设计中,所述关键词文本获取模块,还用于若预设的多个标准问题中不存在候选标准问题,则获取所述待答问题对应的第二关键词文本;
所述相似度获取模块,还用于根据所述第一关键词文本的VSM向量和所述第二关键词文本的主题分布向量,得到特定相似度;
所述答案获取模块,还用于根据所述特定相似度,得到预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述发送模块,还用于将所述预设答案发送至所述终端。
在一种可能的设计中,所述答案获取模块,还用于若预设的多个标准问题中不存在候选标准问题,则获取预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述发送模块,还用于将所述预设答案发送至所述终端。
在一种可能的设计中,所述相似度获取模块,具体用于:
对于每个候选标准问题,根据所述第一关键词文本的VSM向量和所述候选标准问题的VSM向量的余弦距离,得到VSM相似度;
根据所述第二关键词文本的主题分布向量和所述候选标准问题的主题分布向量的相对熵,得到语义相似度;
根据所述VSM相似度和语义相似度的线性加权和,得到所述待答问题和所述候选标准问题的相似度。
在一种可能的设计中,所述关键词文本获取模块,具体用于:
将所述待答问题转换为所述标准语言形式的问题,得到处理后的待答问题;
提取所述处理后的待答问题的所有关键词,得到所述第一关键词文本。
在一种可能的设计中,还包括主题分布向量获取模块,所述主题分布向量获取模块用于:
对于每个候选标准问题,根据所述候选标准问题的所有关键词和主题-词语共现频率矩阵,得到所述候选标准问题的主题分布向量;所述主题-词语共现频率矩阵为各所述预设主题采用各训练词语的概率组成的矩阵,是所述智能应答的装置对多个训练文档训练得到的;每个训练文档包括多个训练问题,每个训练文档包括的各训练问题对应的答案的语义相同,且每个训练文档包括的各训练问题的语言不同,多个所述训练词语为多个所述训练文档对应的所有训练问题各自的关键词;
根据所述第二关键词文本和所述主题-词语共现频率矩阵,得到所述第二关键词文本的主题分布向量。
在一种可能的设计中,所述主题分布向量获取模块具体用于:
根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述候选标准问题包括的关键词进行主题采样,得到所述候选标准问题的主题分布向量。
在一种可能的设计中,所述主题分布向量获取模块具体用于:
根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述第二关键词文本包括的各关键词进行主题采样,得到所述第二关键词文本的主题分布向量。
在一种可能的设计中,还包括VSM向量获取模块,所述VSM向量获取模块用于:
对于每个候选标准问题,从所述候选标准问题的所有关键词中选出至少一个第二关键词,所述第二关键词为所述第一关键文本中的关键词;
根据预存的各所述第二关键词的TF-IDF值,得到所述候选标准问题的VSM向量;
根据所述第一关键词文本中各关键词各自的词频和反文档频率,得到所述第一关键词文本的VSM向量。
在一种可能的设计中,所述VSM向量获取模块具体用于:
对于第一关键词文本包括的每个第一关键词,获取预存的所述第一关键词的反文档频率,所述第一关键词为所述第一关键词文本中的任一关键词;
统计所述第一关键词在所述处理后的待答问题中出现的次数以及所述处理后的待答问题包括的单词的个数;
根据所述次数和所述个数的比值,得到所述第一关键词的词频;
根据所述反文档频率和所述词频之积,得到所述第一关键词的词频-反文档频率TF-TDF值;
根据各所述第一关键词各自的TF-TDF值,得到所述第一关键词文本的VSM向量。
在一种可能的设计中,还包括知识库获取模块,所述知识库获取模块用于:
获取多个所述标准问题以及各所述标准问题各自对应的标准答案;
获取每个所述标准问题的所有关键词各自的TF-IDF值和反文档频率;
获取所述多个训练文档;
提取所述多个训练文档对应的所有训练问题的关键词,得到多个所述训练词语;
对所述多个训练词语进行主题采样,得到所述主题-词语共现频率矩阵;其中,对于当前训练词语进行主题采样时,所依据的其它训练词语的语言与所述当前训练词语的语言相同。
第三方面,本申请提供一种智能应答的设备,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行第一方面中任一可能的设计中的方法。
本实施例的智能应答的方法,在待答问题的用户语言与预存的标准语言不相同的情况下,根据第一关键词文本和候选标准问题各自的空间VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度,其中,第一关键词文本为与待答问题对应的标准语言形式的关键词组成的文本,第二关键词文本为与待答问题对应的用户语言形式的关键词组成的文本。即在考虑待答问题和候选标准问题之间语义关联性时,没有进行机器翻译,降低了由于机器翻译错误造成的得到的候选标准问题与待答问题的相似度不准确的几率,进而减少了服务器获取的答案与待答问题不相关的现象发生的几率,提高了服务器获取的待答问题的答案的准确度。
附图说明
图1为本申请实施例提供的一种可能的系统架构图;
图2为本申请实施例提供的服务器的结构框图;
图3为本申请实施例提供的智能应答的方法的实施一的流程图;
图4为本申请实施例提供的训练文档的组成示意图;
图5为本申请实施例提供的智能应答的方法实施二的流程图;
图6为本申请实施例提供的智能应答的方法实施三的流程图;
图7为本申请实施例提供的智能应答的装置实施一的结构示意图;
图8为本申请实施例提供的智能应答的装置实施二的结构示意图。
具体实施方式
首先对本申请涉及的相关概念进行简单的介绍。
文档的空间向量模型VSM向量:是指文档的各关键词各自的权重值组成的向量,其形式为(T1:W1、T2:W2……Tn:Wn……TN:WN),一般情况下,权重值Wn用词频-反文档频率TF-IDF值表示,即Wn是指该文档中的第n个关键词Tn的TF-IDF值,TF值为词频,为第n个关键词Tn在该文档中出现的次数与文档包括的单词的总数的比值,IDF值是指反文档频率,为语料库中的总文档数与包含第n个关键词Tn的文档的数目的比值的对数值。若第n个关键词Tn在某篇文档中出现的次数多(TF值大),并且在其它的文档中出现的次数少(IDF值大),TF-IDF值就比较大,表明该第n个关键词Tn具有较好的区分度。
文档的主题分布向量:是指各预设主题在该文档中出现的概率分布,其形式为(L1、L2、……Lk、……LK),其中,Lk是指第k预设主题包括的词语在该文档中出现的概率,比如k预设主题为体育,其可能包括的词语有:足球、运动会、羽毛球、跑步等。预设主题为根据主题模型,通过对语料库中的各训练词语进行训练得到的主题。而主题模型是用来在一系列文档中抽取抽象主题的一种统计模型,它是基于文档级的词贡献来建模文档的主题分布。潜在狄利克雷分配模型(LDA)是目前最常用的一种主题模型。
图1为本申请实施例提供的一种可能的系统架构图。参见图1,该系统架构包括服务器11和终端12。本申请实施例所涉及到的终端12可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备等等。服务器存储有知识库,知识库中包括多个标准语言形式的标准问题以及多个标准问题各自对应的至少一种语言形式的标准答案。
具体地,在智能应答的过程中,用户通过终端12的显示界面输入用户语言形式的待答问题,用户语言和标准语言不相同,终端12将用户输入的待答问题发送至服务器11。服务器11将待答问题转换成标准语言形式的问题,得到处理后的待答问题,并提取处理后的待答问题中的所有关键词,得到第一关键词文本;服务器11根据第一关键词文本中的关键词,判断多个标准问题中是否存在候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题,若是,则获取待答问题对应的第二关键词文本。接着,服务器11根据第一关键词文本和各候选标准问题各自的向量空间模型VSM向量,第二关键词文本和各候选标准问题各自的主题分布向量,得到每个候选标准问题与待答问题的相似度;服务器11根据待答问题与每个候选标准问题的相似度,获取待答问题的答案;并将待答问题的答案发送至终端12,终端12向用户显示该答案。本申请实施例在获取候选标准问题和待答问题的相似度时,通过引入主题分布向量考虑了待答问题和候选标准问题之间的语义关系,且考虑语义关系时无需将待答问题翻译成标准语言形式的问题,降低了用户语言和标准语言不相同时,机器翻译错误造成的服务器11返回给终端12的答案与用户输入的待答问题不相关的概率。
图2为本申请实施例提供的服务器的结构框图。参见图2,本申请实施例的服务器可包括:至少一个处理器201,存储器202,至少一个通信总线203、接收器204和发送器205。其中,通信总线203用于实现处理器201、存储器202、接收器204和发送器205之间的连接通信。
具体地,存储器202可以是以下的任一种或任一种组合:固态硬盘(Solid StateDrives,SSD)、机械硬盘、磁盘、磁盘整列等存储介质,可向处理器201提供指令和数据。
存储器202用于存储以下数据:多个标准问题以及各标准问题对应的标准答案。标准问题的语言为标准语言;存储器202还用于存储以下数据:各标准问题各自包括的第一关键词的TF-IDF值和反文档频率;多个训练文档,以及根据多个训练文档得到的主题-词语共现频率矩阵,主题-词语共现频率矩阵为各预设主题采用各训练词语的概率组成的矩阵;其中,每个训练文档包括多个训练问题,每个训练文档的各训练问题对应的答案的语义相同,每个训练文档的各训练问题对应的语言不同。
可选的,存储器202还用于存储如下的元素:操作系统和应用程序模块。
其中,操作系统,可包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。应用程序模块,可包含各种应用程序,用于实现各种应用业务。
接收器204用于接收终端发送的待答问题。
当待答问题的语言为用户语言,用户语言和标准语言不相同时,处理器201可通过调用存储器202存储的程序或指令以及数据,用于执行如下步骤:从接收器204获取终端发送的待答问题,并根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;若多个标准问题中存在至少一个候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题,则获取待答问题对应的第二关键词文本,第二关键词文本包括待答问题的所有关键词;根据第一关键词文本和候选标准问题各自的空间向量模型VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度;VSM向量为文本的各关键词各自在文本中的权重值组成的向量,主题分布向量为各预设主题在文本中各自出现的概率组成的向量;根据待答问题与每个候选标准问题的相似度,获取待答问题的答案;待答问题的答案为所有候选标准问题中与待答问题的相似度最大、且与待答问题的相似度大于预设阈值的候选标准问题的标准答案。
发送器205用于将待答问题的答案发送至终端。
或者,处理器201还可通过调用存储器202存储的程序或指令,用于执行如下步骤:从接收器204获取终端发送的待答问题,并根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;若预设的多个标准问题中不存在候选标准问题,则获取待答问题对应的第二关键词文本;根据第一关键词文本的VSM向量和第二关键词文本的主题分布向量,得到特定相似度;根据特定相似度,得到预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案。
相应地,发送器205还用于将预设答案发送至终端。
或者,处理器201还可通过调用存储器202存储的程序或指令,用于执行如下步骤:从接收器204获取终端发送的待答问题,并根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;若预设的多个标准问题中不存在候选标准问题,则获取预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案;
相应地,发送器205还用于将预设答案发送至终端。
可选地,处理器201具体用于:若多个标准问题中存在至少一个候选标准问题,对于每个候选标准问题,根据第一关键词文本的VSM向量和候选标准问题的VSM向量的余弦距离,得到VSM相似度;根据第二关键词文本的主题分布向量和候选标准问题的主题分布向量的相对熵,得到语义相似度;根据VSM相似度和语义相似度的线性加权和,得到待答问题和候选标准问题的相似度。
可选地,处理器201还具体用于:将待答问题转换为标准语言形式的问题,得到处理后的待答问题;提取处理后的待答问题的所有关键词,得到第一关键词文本。
可选地,处理器201还具体用于:在根据第一关键词文本和候选标准问题各自的VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度之前,对于每个候选标准问题,根据候选标准问题的所有关键词和存储器202存储的主题-词语共现频率矩阵,得到候选标准问题的主题分布向量;主题-词语共现频率矩阵为各预设主题采用各训练词语的概率组成的矩阵;根据第二关键词文本和主题-词语共现频率矩阵,得到第二关键词文本的主题分布向量。
具体地,处理器201根据该主题-词语共现频率矩阵,通过吉布斯采样的方法,对候选标准问题包括的关键词进行主题采样,得到候选标准问题的主题分布向量。以及,根据该主题-词语共现频率矩阵,通过吉布斯采样的方法,对第二关键词文本包括的各关键词进行主题采样,得到第二关键词文本的主题分布向量。
可选地,处理器201还用于:在根据第一关键词文本和候选标准问题各自的VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度之前,对于每个候选标准问题,从候选标准问题的所有关键词中选出至少一个第二关键词,第二关键词为第一关键文本中的关键词;根据存储器202中预存的各第二关键词的TF-IDF值,得到候选标准问题的VSM向量;根据第一关键词文本中各关键词各自的词频和反文档频率,得到第一关键词文本的VSM向量。
具体地,处理器201对于第一关键词文本包括的每个第一关键词,获取存储器202预存的第一关键词的反文档频率,第一关键词为第一关键词文本中的任一关键词;统计第一关键词在处理后的待答问题中出现的次数以及处理后的待答问题包括的单词的个数;根据次数和个数的比值,得到第一关键词的词频;根据反文档频率和词频之积,得到第一关键词的词频-反文档频率TF-TDF值;根据各第一关键词各自的TF-TDF值,得到第一关键词文本的VSM向量。
可选地,处理器201还用于:在根据终端发送的待答问题,得到待答问题对应的第一关键词文本之前,获取多个标准问题以及各标准问题各自对应的标准答案;获取每个标准问题的所有关键词各自的TF-IDF值和反文档频率,获取多个训练文档;提取多个训练文档对应的所有训练问题的关键词,得到多个训练词语;对多个训练词语进行主题采样,得到主题-词语共现频率矩阵;其中,对于当前训练词语进行主题采样时,所依据的其它训练词语的语言与当前训练词语的语言相同。
具体地,处理器201获取的多个标准问题、各标准问题各自对应的标准答案、每个标准问题的所有关键词各自的TF-IDF值和反文档频率、多个训练文档、多个训练文档对应的主题-词语共现频率矩阵均发送至存储器202中进行存储。
本申请实施例提供的服务器,根据第一关键词文本和候选标准问题各自的空间VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度,其中,第一关键词文本为与待答问题对应的标准语言形式的关键词组成的文本,第二关键词文本为与待答问题对应的用户语言形式的关键词组成的文本。即在考虑待答问题和候选标准问题之间语义关联性时,没有进行机器翻译,降低了由于机器翻译错误造成的得到的候选标准问题与待答问题的相似度不准确的几率,进而减少了服务器获取的答案与待答问题不相关的现象发生的几率,提高了服务器获取的待答问题的答案的准确度。
可以理解的是,本申请实施例的服务器的各功能模块的功能,以及该服务器与其他设备之间的交互机制,可根据方法实施例中的方法具体实现,其具体实现过程可以参照下述方法实施例的相关描述,此处不再赘述。
下面结合具体的实施例对本申请实施例提供的智能应答的方法进行详细的说明,本申请实施例提供的智能应答的方法可以基于上述服务器实现。
本申请各实施例提供的智能应答的方法适用如下场景:待答问题的语言为用户语言,服务器中预存的多个标准问题的语言为标准语言,用户语言和标准语言不相同。
图3为本申请实施例提供的智能应答的方法的实施一的流程图。参见图3,本申请实施例提供的智能应答的方法可以包括:
步骤S101、服务器根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;
步骤S102、若多个标准问题中存在至少一个候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题,则服务器获取待答问题对应的第二关键词文本,第二关键词文本包括待答问题的所有关键词;
步骤S103、服务器根据第一关键词文本和候选标准问题各自的空间向量模型VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度;VSM向量为文本的各关键词各自在文本中的权重值组成的向量,主题分布向量为各预设主题在文本中各自出现的概率组成的向量;
步骤S104、服务器根据待答问题与每个候选标准问题的相似度,获取待答问题的答案;待答问题的答案为所有候选标准问题中与待答问题的相似度最大、且与待答问题的相似度大于预设阈值的候选标准问题的标准答案;
步骤S105、服务器将待答问题的答案发送至终端。
具体地,本实施例中的服务器中存储有多个标准问题以及各标准问题各自对应的标准答案,可选地,服务器存储有多个标准问题以及各标准问题各自对应的至少两个标准答案,其中,对于每个标准问题,至少两个标准答案对应的语言不同,至少两个标准答案的语义相同。也就是说,对于每一个标准问题,对应有多种语言形式的标准答案。比如标准问题A,对应有B语言形式的标准答案1、C语言形式的标准答案2、D语言的标准答案3,且标准答案1、标准答案2、标准答案3对应的答案的语义是相同的,只是同一含义的答案的不同语言表达。由于标准问题为标准语言形式的文本,与其对应的至少一个标准答案中包括标准语言形式的答案。
在实际的过程中,当用户需要使用智能问答时,需要事先登录智能问答体系附属的应用程序。此处的智能问答体系比如可为客户端“京东”或者网页版“京东中”的“智能助理小咚”,用户在登录“京东”后,便可以采用“智能助理小咚”进行智能问答;智能问答体系还可为“中国电信”客户端中的智能客服,用户在登录“中国电信”后,便可以采用“智能客服”进行智能问答。以上仅是对智能问答体系的举例,对于智能问答体系的具体形式,本实施例并不作限定。
用户通过终端的显示界面输入待答问题,比如,待答问题可为“4G套餐包含哪些价位的?”。终端接收到该待答问题后,便将待答问题对应的待答问题“4G套餐包含哪些价位的?”发送至服务器。
对于步骤S101、由于待答问题对应的用户语言与服务器中存储的标准问题对应的标准语言不相同,服务器接收到终端发送的待答问题后,根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题。其中,服务器根据终端发送的待答问题,得到待答问题对应的第一关键词文本,具体为:服务器将待答问题转换为标准语言形式的问题,得到处理后的待答问题;服务器提取处理后的待答问题的所有关键词,得到第一关键词文本。也就是说,第一关键词文本的语言为标准语言。
本领域技术人员可以理解的是,在服务器将待答问题转换为标准语言形式的问题,得到处理后的待答问题之前,还包括:服务器判断待答问题的用户语言和标准语言是否相同,得到的判断结果为否。
其中,提取处理后的待答问题的所有关键词,具体包括:对处理后的待答问题进行分词,得到多个第一词语,并对各第一词语进行关键词提取,得到多个预取关键词,接着对各预取关键词进行关键词扩展,得到多个关键词。本实施例中的分词方法、关键词提取方法和关键词扩展方法,均采用现有技术中的方法,本实施例中不再赘述。比如,用户语言为中文,标准语言为英文,待答问题为“4G套餐包含哪些价位的?”,处理后的待答问题为“Whatis included in the price of 4G package?”,提取处理后的待答问题“What isincluded in the price of4G package?”的所有关键词,得到“include”、“contain”、“price”、“4G”、“package”5个关键词,则第一关键词文本为(include、contain、price、4G、package)。
对于步骤S102、在得到第一关键词文本后,根据第一关键词文本中包括的所有关键词,服务器判断存储的多个标准问题中是否存在至少一个候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题。
具体地,候选标准问题可具有多个。以与待答问题“4G套餐包含哪些价位的?”对应的第一关键词文本为(include、contain、price、4G、package)为例,凡是包括第一关键词文本中的各关键词—“include”、“contain”、“price”、“4G”、“package”中的任意一个或者几个词的标准问题均为候选标准问题,比如,标准问题“What is the price of 4Gpackage?”和标准问题“What is included in a mobile phone package?”均为与待答问题“4G套餐包含哪些价位的?”对应的候选标准问题。
若多个标准问题中存在至少一个候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题,则服务器获取待答问题对应的第二关键词文本,第二关键词文本包括待答问题的所有关键词。其中,服务器获取待答问题对应的第二关键词文本,具体为:服务器获取待答问题;服务器提取待答问题的所有关键词,得到第二关键词文本。即第二关键词文本的语言为用户语言。
其中,提取待答问题的所有关键词,具体包括:对待答问题进行分词,得到多个第一词语,并对各第一词语进行关键词提取,得到多个预取关键词,接着对各预取关键词进行关键词扩展,得到多个关键词。
比如,用户语言为中文,标准语言为英文,待答问题为“4G套餐包含哪些价位的?”,对“4G套餐包含哪些价位的?”进行关键词提取得到的各关键词为“4G”、“套餐”、“包含”、“哪些”、“价位”,那么第二关键词文本为(4G、套餐、包含、哪些、价位)。
对于步骤S103,在进行步骤S103之前,需要分别获取第一关键词文本和各候选标准问题各自的VSM向量,第二关键词文本和各候选标准问题各自的主题分布向量。可选地,本实施例中的VSM向量为由文本的各关键词的词频-反文档频率TF-IDF值组成。
在介绍“获取第一关键词文本和各候选标准问题各自的VSM向量,第二关键词文本和各候选标准问题各自的主题分布向量”之前,先对服务器中的存储器存储的内容进行说明。
本实施例的服务器的存储器中除存储有多个标准问题以及各标准问题各自对应的至少一种语言形式的标准答案外,还存储有:各标准问题各自包括的所有关键词的TF-IDF值和反文档频率,多个训练文档,以及根据多个训练文档得到的多个训练文档对应的主题-词语共现频率矩阵;每个训练文档包括多个训练问题,每个训练文档的各训练问题对应的答案的语义相同,每个训练文档的各训练问题对应的语言不同。也就是说,将对应的答案的语义相同的不同语言的问题组成一篇训练文档。
因此,在本实施例中在服务器根据终端发送的待答问题,得到待答问题对应的第一关键词文本之前,智能应答的方法还包括:
a、服务器获取多个标准问题以及各标准问题各自对应的标准答案;可选地,服务器获取多个标准问题以及各标准问题各自对应的标准答案,包括:服务器获取多个标准问题以及各标准问题各自对应的至少一个标准答案;
b、服务器获取每个标准问题的所有关键词各自的TF-IDF值和反文档频率;
c、服务器获取多个训练文档;每个训练文档包括多个训练问题,每个训练文档包括的各训练问题对应的答案的语义相同,且每个训练文档包括的各训练问题的语言不同;
d、服务器提取多个训练文档对应的所有训练问题的关键词,得到多个训练词语;
e、服务器对多个训练词语进行主题采样,得到主题-词语共现频率矩阵;其中,对于当前训练词语进行主题采样时,所依据的其它训练词语的语言与当前训练词语的语言相同。
具体地,对于a、标准问题和训练问题应该与相应的智能应答体系相关,比如对于电信领域的智能客服,标准问题和训练问题应当与电信领域相关。
对于b、服务器获取每个标准问题的所有关键词各自的TF-IDF值,具体包括:对于每一个标准问题,提取标准问题的各关键词,对于每一个标准关键词,获取该标准关键词的词频和反文档频率,根据该标准关键词的词频和反文档频率之积,得到标准关键词的TF-IDF值,其中,标准关键词为标准问题的任一关键词。
其中,词频为该标准关键词在相应的标准问题中出现的次数与相应的标准问题包括的单词的个数的比值;标准关键词的反文档频率的获取方法采用现有技术中的方法,本实施例不再赘述。则标准问题包括的单词是指标准问题经关键词提取后包括的词语。
对于c、训练文档的数目应当足够大,且所有训练文档中包括的所有训练问题中应当至少包括服务器中存储的标准问题。
图4为本申请实施例提供的训练文档的组成示意图;参见图4,每个训练文档包括多个训练问题,每个训练问题对应的答案的语义相同,每个训练问题对应的语言不同。图4中的语言a片段代表语言a形式的训练问题,语言b片段代表语言b形式的训练问题,语言z片段代表语言z形式的训练问题;语言a形式的训练问题、语言b形式的训练问题、语言z形式的训练问题,对应的答案是相同的。
对于d、e:服务器对多个训练词语进行主题采样,得到主题-词语共现频率矩阵,可采用现有技术中的LDA主题模型,通过吉布斯采样(Gibbs Sampling)得到。
具体地,服务器提取多个训练文档对应的所有训练问题的关键词,得到多个训练词语,是指提取每篇训练文档中的每个训练问题的关键词;多个训练词语为对所有训练文档的所有训练问题提取关键词后得到的所有词语。由于训练问题有多种语言形式,因此,训练词语也具有多种语言形式。
通过吉布斯采样的方法对多个训练词语进行主题采样(也就是通过吉布斯采样的方法对多个训练词语进行训练),得到主题-词语共现频率矩阵的具体方法,为现有技术中的方法,本实施例中不再赘述。其中,通过吉布斯采样的方法对多个训练词语进行主题采样的方法的主体思想为对每一个训练词语的所属的主题进行采样,以确定某一主题采用某一训练词语的概率,以及某一个训练文档中出现某一主题包括的词语的概率。
在通过吉布斯采样的方法对多个训练词语进行主题采样,得到主题-词语共现频率矩阵的同时,还得到了文档-主题分布矩阵,显然地,多篇训练文档所对应的多个主题也被训练得到,多篇训练文档所对应的多个主题即为前述的各预设主题。
主题-词语共现频率矩阵是一个M行N列的矩阵,M代表训练词语的个数,N为对多个训练文档训练得到的主题的个数,也就数预设主题的个数。矩阵中第m行第n列的值表示第n个主题采用第m个训练词语组成相应训练文档的概率。文档-主题分布矩阵是一个K行N列的矩阵,K代表训练文档的个数,矩阵中第k行第n列的值表示第n个主题在第k篇训练文档中出现的概率。
此外,由于训练词语也具有多种语言形式,在对某一个训练词语a的主题进行主题采样时,其所依据的其它的训练词语均为语言与训练词语a的语言相同的训练词语。又由于训练过程中,所有的训练词语是放在一起依次训练或者主题采样的,所以对于不同语言形式的训练词语而言,其训练规则相同,因此,任何属于训练文档对应的语言形式的文本均可根据该主题-词语共现频率矩阵得到文本对应的主题分布向量,从而根据主题分布向量计算不同语言形式的文本的相似度时准确度也很高。
基于上述服务器中的存储的内容,便可以得到第一关键词文本和各候选标准问题各自的VSM向量,第二关键词文本和各候选标准问题各自的主题分布向量。
首先,对第一关键词文本VSM向量和各候选标准问题各自的VSM向量的获取方法进行说明。
具体地,服务器根据第一关键词文本中各关键词各自的词频和反文档频率,得到第一关键词文本的VSM向量,具体为:对于第一关键词文本包括的每个第一关键词,服务器获取预存的第一关键词的反文档频率,第一关键词为第一关键词文本中的任一关键词;服务器统计第一关键词在处理后的待答问题中出现的次数以及处理后的待答问题包括的单词的个数;服务器根据该次数和该个数的比值,得到第一关键词的词频;服务器根据该反文档频率和该词频之积,得到第一关键词的TF-TDF值;服务器根据各第一关键词各自的TF-TDF值,得到第一关键词文本的VSM向量。
比如,第一关键词文本为(include、contain、price、4G、package),服务器计算得到的关键词include的TF-TDF值为0.1,contain的TF-TDF值为.0.2,price的TF-TDF值为0.5,4G的TF-TDF值为0.5,package的TF-TDF值为0.1,那么第一关键词文本的VSM向量为(include:0.1、contain:0.2、price:0.5、4G:0.5、package:0.1)。
其中,各第一关键词的反文档频率可直接从服务器中的存储器中获取。
对于每个候选标准问题,服务器从候选标准问题的所有关键词中选出至少一个第二关键词,第二关键词为第一关键文本中的关键词;服务器根据预存的各第二关键词的TF-IDF值,得到候选标准问题的VSM向量。
比如,候选标准问题为“What is the price of 4G package?时,其对应的第二关键词分别为“price”“4G”、“package”,其VSM向量为(price:0.1、4G:0.5、package:0.1);候选标准问题为“What is included in a mobile phone package?”时,其对应的第二关键词分别为“included”、“mobile”、“phone”、“package”,其VSM向量为(included:0.1、mobile:0.1、phone:0.2、package:0.2)。
其中,各候选标准问题各自对应的第二关键词的TF-TDF值可从服务器中的存储器中获取。
其次,对候选标准问题的主题分布向量和第二关键词文本的主题分布向量的获取方法进行说明。
对于每个候选标准问题,服务器根据候选标准问题的所有关键词和主题-词语共现频率矩阵,得到候选标准问题的主题分布向量;具体为:服务器根据主题-词语共现频率矩阵,通过吉布斯采样的方法,对候选标准问题包括的关键词进行主题采样,得到候选标准问题的主题分布向量。
其中,此处的主题-词语共现频率矩阵为上述服务器中存储的预先训练得到的主题-词语共现频率矩阵,即各预设主题采用各训练词语的概率组成的矩阵(上述的M行N列的矩阵)。
服务器根据主题-词语共现频率矩阵,通过吉布斯采样的方法,对候选标准问题包括的关键词进行主题采样的方法同训练的方法同上述得到主题-词语共现频率矩阵和文档-主题分布矩阵时对各训练词语主题采样的方法相同。前述因为是对多篇文档进行训练,得到的是文档-主题分布矩阵,此处,每次只对候选标准问题这一个文档进行训练,因此,此处得到的便为主题分布向量(也可以说是1×N行的文档-主题分布矩阵)。
服务器根据第二关键词文本和主题-词语共现频率矩阵,得到第二关键词文本的主题分布向量,具体为:服务器根据主题-词语共现频率矩阵,通过吉布斯采样的方法,对第二关键词文本包括的各关键词进行主题采样,得到第二关键词文本的主题分布向量。
其中,此处的主题-词语共现频率矩阵为上述服务器中存储的预先训练得到的主题-词语共现频率矩阵,即各预设主题采用各训练词语的概率组成的矩阵(上述的M行N列的矩阵)。
比如,第二关键词文本为(4G、套餐、包含、哪些、价位),服务器事先根据多个训练文档得到的预设主题个数为3,即N=3,对第二关键词文本中的各关键词通过吉布斯采样的方法进行主题采样,得到的主题分布向量为(0.3、0.2、0.5),也就是说组成第二关键词文本的词语为第一预设主题包括的词语的概率为0.3,为第二预设主题包括的词语的概率为0.2,为第三预设主题包括的词语的概率为0.5。
通过上述方法,得到了到第一关键词文本和各候选标准问题各自的VSM向量,第二关键词文本和各候选标准问题各自的主题分布向量,接着服务器便可以根据第一关键词文本和各候选标准问题各自的VSM向量,第二关键词文本和各候选标准问题各自的主题分布向量,得到待答问题和每个候选标准问题的相似度。具体如下:
对于每个候选标准问题,服务器根据第一关键词文本的VSM向量和候选标准问题的VSM向量的余弦距离,得到VSM相似度;
服务器根据所述第二关键词文本的主题分布向量和候选标准问题的主题分布向量的相对熵,得到语义相似度;
服务器根据VSM相似度和语义相似度的线性加权和,得到待答问题和候选标准问题的相似度。
其中,若第一关键词文本的计算用VSM向量为:(T1:W1、T2:W2、……Tr:Wr、……TR:WR),候选标准问题的计算用VSM向量:(T1:w1、T2:w2、……Tr:wr、……TR:wR),可通过公式一得到VSM相似度Svsm
Figure BDA0001393781470000141
其中,第一关键词文本的计算用VSM向量是根据上述获取的第一关键词文本的VSM向量得到的,候选标准问题的计算用VSM向量是根据上述获取的候选标准问题的VSM向量得到,具体如下:
上述过程中获取的第一关键词文本的VSM向量可称为第一关键词文本的原始VSM向量,第一关键词文本的原始VSM向量即为第一关键词文本的计算用VSM向量;上述过程中获取的候选标准问题的VSM向量可称为候选标准问题的原始VSM向量,若第一关键词文本的原始VSM向量的维数大于候选标准问题的原始VSM向量的维数,则在候选标准问题的原始VSM向量中添加0元素,得到候选标准问题的计算用VSM向量。比如若第一关键词文本的原始VSM向量为(include:0.1、contain:0.2、price:0.5、4G:0.5、package:0.1),候选标准问题的原始VSM向量为(price:0.1、4G:0.5、package:0.1),那么候选标准问题的计算VSM向量为(include:0、contain:0、price:0.1、4G:0.5、package:0.1)。
若第二关键词文本的主题分布向量(L1、L2、……Lp、……LP),候选标准问题的主题分布向量(l1、l2、……l p、……lP),可通过公式二得到语义相似度STM
Figure BDA0001393781470000151
在得到第一关键词文本与候选标准问题之间的VSM相似度,以及第二关键词文本和候选标准问题之间的语义相似度后,根据VSM相似度和语义相似度的线性加权和,得到待答问题和候选标准问题的相似度,可通过公式三得到待答问题和候选标准问题的相似度S1
S1=γ×SVSM+(1-γ)×STM 公式三;
其中,γ为预设权重。
预设权重γ是事先确定好的,确定的原则如下:若经过大量的实验测试,单独采用上述VSM相似度Svsm作为待答问题和候选标准问题的相似度,得到的待答问题的答案的准确度和单独采用上述语义相似度STM作为待答问题和候选标准问题的相似度,得到的待答问题的答案的准确度相同,则γ取0.5;若单独采用上述VSM相似度Svsm作为待答问题和候选标准问题的相似度,得到的待答问题的答案的准确度高于单独采用上述语义相似度STM作为待答问题和候选标准问题的相似度得到的待答问题的答案的准确度,则γ的取值大于0.5;若单独采用上述VSM相似度Svsm作为待答问题和候选标准问题的相似度,得到的待答问题的答案的准确度低于单独采用上述语义相似度STM作为待答问题和候选标准问题的相似度得到的待答问题的答案的准确度,则γ的取值小于0.5。
本实施例中获取候选标准问题与待答的相似度时,同时考虑了VSM相似度和语义相似度,且考虑语义相似度时,没有将待答问题进行机器翻译,直接根据待答问题得到用户语言形式的第二关键词文本,计算第二关键词文本和候选标准文本的相似度,降低了由于机器翻译错误造成的得到的候选标准问题与待答问题的相似度不准确的几率,进而减少了服务器获取的答案与待答问题不相关的现象发生的几率,提高了服务器获取的待答问题的答案的准确度。
对于步骤S104、在得到每个候选标准问题与待答问题的相似度后,从各候选标准问题中选择出与待答问题的相似度最大的候选标准问题,作为预取目标问题,接着判断预取目标问题与待答问题的相似度是否大于等于预设阈值,若是,则将预取目标问题作为目标问题。
在得到目标问题后,若目标问题对应一种语言形式-标准语言形式的标准答案时,则将目标问题对应的目标标准答案转换成用户语言形式的答案,将用户语言形式的答案发送至终端,以使终端将用户语言形式的答案向用户显示,该用户语言形式的答案即为待答问题的答案。
若目标问题文本对应至少两种语言形式的标准答案时,且至少两个标准答案中包括用户语言形式的标准答案,则将用户语言形式的标准答案发送至终端,以使终端将用户语言形式的标准答案向用户显示,该用户语言形式的标准答案即为待答问题的答案。
若目标问题文本对应至少两种语言形式的标准答案时,且至少两种语言形式的标准答案中不包括用户语言形式的标准答案,则将与该目标问题文本对应的任一标准答案转换成用户语言形式的答案;该用户语言形式的答案即为待答问题的答案。
若预取目标问题与待答问题的相似度小于预设阈值,说明各候选标准问题中不存在与待答问题的相似度大于预设阈值的候选标准问题,服务器则向终端发送预设答案,以使终端向用户显示预设答案。预设答案可为用户语言形式的“未搜索到相关问题的答案”、“NULL”等。
另外,还可以采用以下方式得到待答问题的答案,首先判断各候选标准问题中是否存在与待答问题的相似度大于预设阈值的至少一个第一候选标准问题,若是,则从各第一候选标准问题中选择出各第一候选标准问题,然后将各第一候选标准问题中与待答问题的相似度最高的第一候选标准问题作为目标问题。
在得到目标问题后,若目标问题对应一种语言形式-标准语言形式的标准答案时,则将目标问题对应的目标标准答案转换成用户语言形式的答案,将用户语言形式的答案发送至终端,以使终端将用户语言形式的答案向用户显示,该用户语言形式的答案即为待答问题的答案。
若目标问题文本对应至少两种语言形式的标准答案时,且至少两个标准答案中包括用户语言形式的标准答案,则将用户语言形式的标准答案发送至终端,以使终端将用户语言形式的标准答案向用户显示,该用户语言形式的标准答案即为待答问题的答案。
若目标问题文本对应至少两种语言形式的标准答案时,且至少两种语言形式的标准答案中不包括用户语言形式的标准答案,则将与该目标问题文本对应的任一标准答案转换成用户语言形式的答案;该用户语言形式的答案即为待答问题的答案。
若各候选标准问题中不存在与待答问题的相似度大于预设阈值的至少一个第一候选标准问题,说明各候选标准问题中不存在与待答问题的相似度大于预设阈值的候选标准问题,服务器则向终端发送预设答案,以使终端向用户显示预设答案。预设答案可为用户语言形式的“未搜索到相关问题的答案”、“NULL”等。
本实施例的智能应答的方法,包括:服务器根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;若多个标准问题中存在至少一个候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题,则服务器获取待答问题对应的第二关键词文本,第二关键词文本包括待答问题的所有关键词;服务器根据第一关键词文本和候选标准问题各自的空间向量模型VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度;VSM向量为文本的各关键词各自在文本中的权重值组成的向量,主题分布向量为各预设主题在文本中各自出现的概率组成的向量;服务器根据待答问题与每个候选标准问题的相似度,获取待答问题的答案;待答问题的答案为所有候选标准问题中与待答问题的相似度最大、且与待答问题的相似度大于预设阈值的候选标准问题的答案;服务器将待答问题的答案发送至终端。本实施例的智能应答的方法,降低了由于机器翻译错误造成的得到的候选标准问题与待答问题的相似度不准确的几率,进而减少了服务器获取的答案与待答问题不相关的现象发生的几率,提高了服务器获取的待答问题的答案的准确度。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图5为本申请实施例提供的智能应答的方法实施二的流程图,如图5所示,本实施例与图3所示实施例的区别在于服务器预存的多个标准问题中不存在候选标准问题,本实施例的方法可以包括:
步骤S201、服务器根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;
步骤S202、若预设的多个标准问题中不存在候选标准问题,则服务器获取待答问题对应的第二关键词文本;候选标准问题为包括第一关键词文本中至少一个关键词的标准问题;
步骤S203、服务器根据第一关键词文本的VSM向量和第二关键词文本的主题分布向量,得到特定相似度;
步骤S204、服务器根据特定相似度,得到预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案;
步骤S205、服务器将预设答案发送至终端。
具体地,步骤S201~S202同图3所示的实施例中的步骤S101~S102,本实施例不再赘述。
另外,对于步骤S202,若预设的多个标准问题中不存在候选标准问题是指:在得到第一关键词文本后,根据第一关键词文本中包括的所有关键词,服务器判断存储的多个标准问题中是否存在至少一个候选标准问题,得到的判断结果为否,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题。
预设的多个标准问题中不存在候选标准问题,也就是说在服务器找不到与待答问题相关的问题。此时,服务器仍然会在获取第一关键词文本后,继续获取待答问题对应的第二关键词文本。
对于步骤S203,在服务器根据第一关键词文本的VSM向量和第二关键词文本的主题分布向量,得到特定相似度之前,服务器需获取第一关键词文本的VSM向量和第二关键词文本的主题分布向量,第一关键词文本的VSM向量和第二关键词文本的主题分布向量各自的获取方法同上一实施例中的方法,本实施例不再赘述。
由于不存在候选标准问题,因此,无法得到候选标准问题的VSM向量和主题分布向量。
因为只得到了第一关键词文本的VSM向量和第二关键词文本的主题分布向量,服务器根据第一关键词文本的VSM向量和第二关键词文本的主题分布向量,得到的是预先设置好的特定相似度,特定相似度可为0。
对于步骤S204、服务器根据特定相似度,得到预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案。
具体地,服务器事先预设好了特定相似度与原始预设答案的对应关系,即若相似度为特定相似度,则服务器先获取存储的原始预设答案,根据原始预设答案得到预设答案。其中,若用户语言为中文,预设答案可为“该问题没有答案”、“没有找到该问题的答案,请换个方式继续向我提问”。
本领域技术人员可以理解的是,由于服务器中存储的标准问题或者说知识库的语言为标准语言,因此,服务器中存储的原始预设答案为标准语言形式的答案,或者服务器中除了存储有标准语言形式的原始预设答案外,还包括用户其它语言形式的原始预设答案。
若服务器中仅存储有为标准语言形式的原始预设答案,则将原始预设答案转换为用户语言形式的答案,即得到预设答案。
若服务器中除了存储有标准语言形式的原始预设答案外,还包括用户其它语言形式的原始预设答案。当其它语言形式的原始预设答案包括用户语言形式的答案,则该用户语言形式的答案即为预设答案;当其它语言形式的原始预设答案不包括用户语言形式的答案,则将任一语言形式的原始预设答案转换成用户语言形式的答案,得到预设答案。
本实施例中,当服务器预存的多个标准问题中不存在候选标准问题时,则返回给用户预设答案,可防止在服务器中不存在候选标准问题时,返回不相关的答案给用户。
为了当服务器预存的多个标准问题中不存在候选标准问题时,减轻服务器的消耗,本实施例在图5示的实施例的基础上作了进一步的改进。
图6为本申请实施例提供的智能应答的方法实施例三的流程图,如图6所示,本实施例的方法可以包括:
步骤S301、服务器根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;
步骤S302、若预设的多个标准问题中不存在候选标准问题,则服务器获取预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案;
步骤S303、服务器将预设答案发送至终端。
具体地,步骤S301同图3所示的实施例中的步骤S101,本实施例不再赘述。
另外,对于步骤S302,若预设的多个标准问题中不存在候选标准问题是指在得到第一关键词文本后,根据第一关键词文本中包括的所有关键词,服务器判断存储的多个标准问题中是否存在至少一个候选标准问题,得到的判断结果为否,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题。
预设的多个标准问题中不存在候选标准问题,也就是说在服务器找不到与待答问题相关的问题。此时,服务器直接获取预设答案。
具体地,服务器事先存储好了原始预设答案,即在判断预设的多个标准问题中不存在候选标准问题后,则服务器先获取存储的原始预设答案,根据原始预设答案得到预设答案。其中,若用户语言为中文,预设答案可为“该问题没有答案”、“没有找到该问题的答案,请换个方式继续向我提问”。
本领域技术人员可以理解的是,由于服务器中存储的标准问题或者说知识库的语言为标准语言,因此,服务器中存储的原始预设答案为标准语言形式的答案,或者服务器中除了存储有标准语言形式的原始预设答案外,还包括用户其它语言形式的原始预设答案。
若服务器中仅存储有为标准语言形式的原始预设答案,则将原始预设答案转换为用户语言形式的答案,即得到预设答案。
若服务器中除了存储有标准语言形式的原始预设答案外,还包括用户其它语言形式的原始预设答案。当其它语言形式的原始预设答案包括用户语言形式的答案,则该用户语言形式的答案即为预设答案;当其它语言形式的原始预设答案不包括用户语言形式的答案,则将任一语言形式的原始预设答案转换成用户语言形式的答案,得到预设答案。
本实施例中,当服务器预存的多个标准问题中不存在候选标准问题时,则直接返回给用户预设答案,可减轻服务器的消耗。
上述针对服务器所实现的功能,对本申请实施例提供的方案进行了介绍。可以理解的是,服务器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本申请中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的技术方案的范围。
本申请实施例可以根据上述方法示例对服务器中进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图7为本申请实施例提供的智能应答的装置实施一的结构示意图,参见图7,本实施例的智能应答的装置包括:关键词文本获取模块71、相似度获取模块72、答案获取模块73和发送模块74。
其中,待答问题的语言为用户语言,智能应答的装置中预存的多个标准问题的语言为标准语言,用户语言和标准语言不相同。
关键词文本获取模块71,用于根据终端发送的待答问题,得到待答问题对应的第一关键词文本,第一关键词文本包括处理后的待答问题的所有关键词,处理后的待答问题为将待答问题转化为标准语言形式后的问题;
关键词文本获取模块71,还用于若多个标准问题中存在至少一个候选标准问题,候选标准问题为包括第一关键词文本中至少一个关键词的标准问题,则获取待答问题对应的第二关键词文本,第二关键词文本包括待答问题的所有关键词;
相似度获取模块72,用于根据第一关键词文本和候选标准问题各自的空间向量模型VSM向量,第二关键词文本和候选标准问题各自的主题分布向量,得到待答问题与每个候选标准问题的相似度;VSM向量为文本的各关键词各自在文本中的权重值组成的向量,主题分布向量为各预设主题在文本中各自出现的概率组成的向量;
答案获取模块73,用于根据待答问题与每个候选标准问题的相似度,获取待答问题的答案;待答问题的答案为所有候选标准问题中与待答问题的相似度最大、且与待答问题的相似度大于预设阈值的候选标准问题的标准答案;
发送模块74,用于将待答问题的答案发送至终端。
关键词文本获取模块71,还用于若预设的多个标准问题中不存在候选标准问题,则获取待答问题对应的第二关键词文本;相似度获取模块72,还用于根据第一关键词文本的VSM向量和第二关键词文本的主题分布向量,得到特定相似度;答案获取模块73,还用于根据特定相似度,得到预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案;发送模块74,还用于将预设答案发送至终端。
答案获取模块73,还用于若预设的多个标准问题中不存在候选标准问题,则获取预设答案,预设答案用于指示多个标准问题各自对应的标准答案中不存在待答问题的答案;发送模块74,还用于将预设答案发送至终端。
相似度获取模块72,具体用于:对于每个候选标准问题,根据第一关键词文本的VSM向量和候选标准问题的VSM向量的余弦距离,得到VSM相似度;根据第二关键词文本的主题分布向量和候选标准问题的主题分布向量的相对熵,得到语义相似度;根据VSM相似度和语义相似度的线性加权和,得到待答问题和候选标准问题的相似度。
关键词文本获取模块71,具体用于:将待答问题转换为标准语言形式的问题,得到处理后的待答问题;提取处理后的待答问题的所有关键词,得到第一关键词文本。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本申请实施例提供的智能应答的装置实施二的结构示意图,参见图8,在图7所示的智能应答的装置的基础上,本实施例的智能应答的装置还包括:主题分布向量获取模块75、VSM向量获取模块76和知识库获取模块77。
主题分布向量获取模块75用于:对于每个候选标准问题,根据候选标准问题的所有关键词和主题-词语共现频率矩阵,得到候选标准问题的主题分布向量;主题-词语共现频率矩阵为各预设主题采用各训练词语的概率组成的矩阵,是服务器对多个训练文档训练得到的;每个训练文档包括多个训练问题,每个训练文档包括的各训练问题对应的答案的语义相同,且每个训练文档包括的各训练问题的语言不同,多个训练词语为多个训练文档对应的所有训练问题的关键词;根据第二关键词文本和主题-词语共现频率矩阵,得到第二关键词文本的主题分布向量。
主题分布向量获取模块75具体用于:根据主题-词语共现频率矩阵,通过吉布斯采样的方法,对候选标准问题包括的各关键词进行主题采样,得到候选标准问题的主题分布向量。以及,根据主题-词语共现频率矩阵,通过吉布斯采样的方法,对第二关键词文本包括的各关键词进行主题采样,得到第二关键词文本的主题分布向量。
VSM向量获取模块76用于:对于每个候选标准问题,从候选标准问题的所有关键词中选出至少一个第二关键词,第二关键词为第一关键文本中的关键词;根据预存的各第二关键词的TF-IDF值,得到候选标准问题的VSM向量;根据第一关键词文本中各关键词各自的词频和反文档频率,得到第一关键词文本的VSM向量。
VSM向量获取模块76具体用于:对于第一关键词文本包括的每个第一关键词,获取预存的第一关键词的反文档频率,第一关键词为第一关键词文本中的任一关键词;统计第一关键词在处理后的待答问题中出现的次数以及处理后的待答问题包括的单词的个数;根据次数和个数的比值,得到第一关键词的词频;根据反文档频率和词频之积,得到第一关键词的词频-反文档频率TF-TDF值;根据各第一关键词各自的TF-TDF值,得到第一关键词文本的VSM向量。
知识库获取模块77用于:获取多个标准问题以及各标准问题各自对应的标准答案;获取每个标准问题的所有关键词各自的TF-IDF值和反文档频率;获取多个训练文档;提取多个训练文档对应的所有训练问题的关键词,得到多个训练词语;对多个训练词语进行主题采样,得到主题-词语共现频率矩阵;其中,对于当前训练词语进行主题采样时,所依据的其它训练词语的语言与当前训练词语的语言相同。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

Claims (17)

1.一种智能应答的方法,待答问题的语言为用户语言,服务器中预存的多个标准问题的语言为标准语言,所述用户语言和所述标准语言不相同,其特征在于,包括:
服务器根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本,所述第一关键词文本包括处理后的待答问题的所有关键词,所述处理后的待答问题为将所述待答问题转化为标准语言形式后的问题;
若所述多个标准问题中存在至少一个候选标准问题,所述候选标准问题为包括所述第一关键词文本中至少一个关键词的标准问题,则所述服务器获取所述待答问题对应的第二关键词文本,所述第二关键词文本包括所述待答问题的所有关键词;
所述服务器根据所述第一关键词文本和所述候选标准问题各自的空间向量模型VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度;所述VSM向量为文本的各关键词各自在所述文本中的权重值组成的向量,所述主题分布向量为各预设主题在文本中各自出现的概率组成的向量;
所述服务器根据所述待答问题与每个候选标准问题的相似度,获取所述待答问题的答案;所述待答问题的答案为所有候选标准问题中与所述待答问题的相似度最大、且与所述待答问题的相似度大于预设阈值的候选标准问题的标准答案;
所述服务器将所述待答问题的答案发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,若预设的多个标准问题中不存在候选标准问题,则所述服务器获取所述待答问题对应的第二关键词文本;
所述服务器根据所述第一关键词文本的VSM向量和所述第二关键词文本的主题分布向量,得到特定相似度;
所述服务器根据所述特定相似度,得到预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述服务器将所述预设答案发送至所述终端。
3.根据权利要求1所述的方法,其特征在于,若预设的多个标准问题中不存在候选标准问题,则所述服务器获取预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述服务器将所述预设答案发送至所述终端。
4.根据权利要求1所述的方法,其特征在于,所述服务器根据所述第一关键词文本和所述候选标准问题各自的VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度,包括:
对于每个候选标准问题,所述服务器根据所述第一关键词文本的VSM向量和所述候选标准问题的VSM向量的余弦距离,得到VSM相似度;
所述服务器根据所述第二关键词文本的主题分布向量和所述候选标准问题的主题分布向量的相对熵,得到语义相似度;
所述服务器根据所述VSM相似度和语义相似度的线性加权和,得到所述待答问题和所述候选标准问题的相似度。
5.根据权利要求1所述的方法,其特征在于,所述服务器根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本,包括:
所述服务器将所述待答问题转换为所述标准语言形式的问题,得到处理后的待答问题;
所述服务器提取所述处理后的待答问题的所有关键词,得到所述第一关键词文本。
6.根据权利要求1所述的方法,其特征在于,在所述服务器根据所述第一关键词文本和所述候选标准问题各自的VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度之前,还包括:
对于每个所述候选标准问题,所述服务器根据所述候选标准问题的所有关键词和主题-词语共现频率矩阵,得到所述候选标准问题的主题分布向量;所述主题-词语共现频率矩阵为各所述预设主题采用各训练词语的概率组成的矩阵,是所述服务器对多个训练文档训练得到的;每个训练文档包括多个训练问题,每个训练文档包括的各训练问题对应的答案的语义相同,且每个训练文档包括的各训练问题的语言不同,多个所述训练词语为多个所述训练文档对应的所有训练问题的关键词;
所述服务器根据所述第二关键词文本和所述主题-词语共现频率矩阵,得到所述第二关键词文本的主题分布向量。
7.根据权利要求6所述的方法,其特征在于,所述服务器根据所述候选标准问题的所有关键词和主题-词语共现频率矩阵,得到所述候选标准问题的主题分布向量,包括:
所述服务器根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述候选标准问题包括的各关键词进行主题采样,得到所述候选标准问题的主题分布向量。
8.根据权利要求6所述的方法,其特征在于,所述服务器根据所述第二关键文本和所述主题-词语共现频率矩阵,得到所述第二关键词文本的主题分布向量,包括:
所述服务器根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述第二关键词文本包括的各关键词进行主题采样,得到所述第二关键词文本的主题分布向量。
9.一种智能应答的装置,待答问题的语言为用户语言,智能应答的装置中预存的多个标准问题的语言为标准语言,所述用户语言和所述标准语言不相同,其特征在于,包括:
关键词文本获取模块,用于根据终端发送的待答问题,得到所述待答问题对应的第一关键词文本,所述第一关键词文本包括处理后的待答问题的所有关键词,所述处理后的待答问题为将所述待答问题转化为标准语言形式后的问题;
关键词文本获取模块,还用于若所述多个标准问题中存在至少一个候选标准问题,所述候选标准问题为包括所述第一关键词文本中至少一个关键词的标准问题,则获取所述待答问题对应的第二关键词文本,所述第二关键词文本包括所述待答问题的所有关键词;
相似度获取模块,用于根据所述第一关键词文本和所述候选标准问题各自的空间向量模型VSM向量,所述第二关键词文本和所述候选标准问题各自的主题分布向量,得到所述待答问题与每个所述候选标准问题的相似度;所述VSM向量为文本的各关键词各自在所述文本中的权重值组成的向量,所述主题分布向量为各预设主题在文本中各自出现的概率组成的向量;
答案获取模块,用于根据所述待答问题与每个候选标准问题的相似度,获取所述待答问题的答案;所述待答问题的答案为所有候选标准问题中与所述待答问题的相似度最大、且与所述待答问题的相似度大于预设阈值的候选标准问题的标准答案;
发送模块,用于将所述待答问题的答案发送至所述终端。
10.根据权利要求9所述的装置,其特征在于,所述关键词文本获取模块,还用于若预设的多个标准问题中不存在候选标准问题,则获取所述待答问题对应的第二关键词文本;
所述相似度获取模块,还用于根据所述第一关键词文本的VSM向量和所述第二关键词文本的主题分布向量,得到特定相似度;
所述答案获取模块,还用于根据所述特定相似度,得到预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述发送模块,还用于将所述预设答案发送至所述终端。
11.根据权利要求9所述的装置,其特征在于,所述答案获取模块,还用于若预设的多个标准问题中不存在候选标准问题,则获取预设答案,所述预设答案用于指示所述多个标准问题各自对应的标准答案中不存在所述待答问题的答案;
所述发送模块,还用于将所述预设答案发送至所述终端。
12.根据权利要求9所述的装置,其特征在于,所述相似度获取模块,具体用于:
对于每个候选标准问题,根据所述第一关键词文本的VSM向量和所述候选标准问题的VSM向量的余弦距离,得到VSM相似度;
根据所述第二关键词文本的主题分布向量和所述候选标准问题的主题分布向量的相对熵,得到语义相似度;
根据所述VSM相似度和语义相似度的线性加权和,得到所述待答问题和所述候选标准问题的相似度。
13.根据权利要求9所述的装置,其特征在于,所述关键词文本获取模块,具体用于:
将所述待答问题转换为所述标准语言形式的问题,得到处理后的待答问题;
提取所述处理后的待答问题的所有关键词,得到所述第一关键词文本。
14.根据权利要求9所述的装置,其特征在于,还包括主题分布向量获取模块,所述主题分布向量获取模块用于:
对于每个所述候选标准问题,根据所述候选标准问题的所有关键词和主题-词语共现频率矩阵,得到所述候选标准问题的主题分布向量;所述主题-词语共现频率矩阵为各所述预设主题采用各训练词语的概率组成的矩阵,是所述智能应答的装置对多个训练文档训练得到的;每个训练文档包括多个训练问题,每个训练文档包括的各训练问题对应的答案的语义相同,且每个训练文档包括的各训练问题的语言不同,多个所述训练词语为多个所述训练文档对应的所有训练问题的关键词;
根据所述第二关键词文本和所述主题-词语共现频率矩阵,得到所述第二关键词文本的主题分布向量。
15.根据权利要求14所述的装置,其特征在于,所述主题分布向量获取模块具体用于:
根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述候选标准问题包括的各关键词进行主题采样,得到所述候选标准问题的主题分布向量。
16.根据权利要求14所述的装置,其特征在于,所述主题分布向量获取模块还具体用于:
根据所述主题-词语共现频率矩阵,通过吉布斯采样的方法,对所述第二关键词文本包括的各关键词进行主题采样,得到所述第二关键词文本的主题分布向量。
17.一种智能应答的设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至8中任一所述的方法。
CN201710764118.5A 2017-08-30 2017-08-30 智能应答的方法和装置 Active CN107704506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710764118.5A CN107704506B (zh) 2017-08-30 2017-08-30 智能应答的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710764118.5A CN107704506B (zh) 2017-08-30 2017-08-30 智能应答的方法和装置

Publications (2)

Publication Number Publication Date
CN107704506A CN107704506A (zh) 2018-02-16
CN107704506B true CN107704506B (zh) 2021-03-30

Family

ID=61170340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710764118.5A Active CN107704506B (zh) 2017-08-30 2017-08-30 智能应答的方法和装置

Country Status (1)

Country Link
CN (1) CN107704506B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019197977A (ja) * 2018-05-08 2019-11-14 シャープ株式会社 問い合わせ処理方法、システム、端末、自動音声対話装置、表示処理方法、通話制御方法、及び、プログラム
CN110895559B (zh) * 2018-09-12 2023-06-20 阿里巴巴集团控股有限公司 模型训练、文本处理方法、装置以及设备
CN109344240B (zh) * 2018-09-21 2022-11-22 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
CN109688281A (zh) * 2018-12-03 2019-04-26 复旦大学 一种智能语音交互方法及系统
CN111444321B (zh) * 2019-01-16 2023-04-18 北京字节跳动网络技术有限公司 问答方法、装置、电子设备和存储介质
CN109858626B (zh) * 2019-01-23 2021-08-03 腾讯科技(深圳)有限公司 一种知识库构建方法及装置
CN109947651B (zh) * 2019-03-21 2022-08-02 上海智臻智能网络科技股份有限公司 人工智能引擎优化方法和装置
CN110008330A (zh) * 2019-04-04 2019-07-12 深圳追一科技有限公司 智能客服设备的应答方法、装置、设备和存储介质
CN111209385B (zh) * 2020-01-14 2024-02-02 重庆兆光科技股份有限公司 一种基于凸神经网络的咨询对话唯一答案寻优方法
CN111309878B (zh) * 2020-01-19 2023-08-22 支付宝(杭州)信息技术有限公司 检索式问答方法、模型训练方法、服务器及存储介质
CN113268572A (zh) * 2020-02-14 2021-08-17 华为技术有限公司 问答方法及装置
CN112559769B (zh) * 2020-12-15 2024-04-16 上海钛米机器人股份有限公司 问答数据库的生成方法和装置
CN112765306A (zh) * 2020-12-30 2021-05-07 金蝶软件(中国)有限公司 智能问答方法、装置、计算机设备和存储介质
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN116260909B (zh) * 2023-03-08 2024-03-26 深圳方思鼎云科技有限公司 一种呼叫系统的语音应用控制方法及呼叫系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130080472A1 (en) * 2011-09-28 2013-03-28 Ira Cohen Translating natural language queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备

Also Published As

Publication number Publication date
CN107704506A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107704506B (zh) 智能应答的方法和装置
CN110647614B (zh) 智能问答方法、装置、介质及电子设备
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN110334344B (zh) 一种语义意图识别方法、装置、设备及存储介质
US11176453B2 (en) System and method for detangling of interleaved conversations in communication platforms
CN106815311B (zh) 一种问题匹配方法和装置
EP4109295A1 (en) Knowledge graph-based question answering method and apparatus, computer device, and medium
CN111428010B (zh) 人机智能问答的方法和装置
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
KR20200000216A (ko) 단어자질을 강화한 음성 대화 방법 및 시스템
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN112632257A (zh) 基于语义匹配的问题处理方法、装置、终端和存储介质
CN109492085B (zh) 基于数据处理的答案确定方法、装置、终端及存储介质
CN110941698A (zh) 一种基于bert下卷积神经网络的服务发现方法
US20210174161A1 (en) Method and apparatus for multi-document question answering
CN112052297B (zh) 信息生成方法、装置、电子设备和计算机可读介质
JP2012104041A (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN110222144B (zh) 文本内容提取方法、装置、电子设备及存储介质
CN110427626B (zh) 关键词的提取方法及装置
CN116975221A (zh) 文本阅读理解方法、装置、设备及存储介质
US20220108071A1 (en) Information processing device, information processing system, and non-transitory computer readable medium
CN110674268B (zh) 人机对话方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant