CN118069805A - 基于语音和文本协同的智能问答方法及装置 - Google Patents

基于语音和文本协同的智能问答方法及装置 Download PDF

Info

Publication number
CN118069805A
CN118069805A CN202410201055.2A CN202410201055A CN118069805A CN 118069805 A CN118069805 A CN 118069805A CN 202410201055 A CN202410201055 A CN 202410201055A CN 118069805 A CN118069805 A CN 118069805A
Authority
CN
China
Prior art keywords
voice
text
question
matching
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410201055.2A
Other languages
English (en)
Inventor
嵇志辉
张冉锋
唐永鹏
刘硕凌
邓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
E Fund Management Co ltd
Original Assignee
E Fund Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by E Fund Management Co ltd filed Critical E Fund Management Co ltd
Priority to CN202410201055.2A priority Critical patent/CN118069805A/zh
Publication of CN118069805A publication Critical patent/CN118069805A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于语音和文本协同的智能问答方法及装置,包括:通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型;对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答;将所述多条回答按照置信度排序,并通过文本或语音进行输出;采用本发明能够提高语音和文本的转换效率和知识库的利用率。

Description

基于语音和文本协同的智能问答方法及装置
技术领域
本发明涉及智能问答技术领域,尤其涉及基于语音和文本协同的智能问答方法及装置。
背景技术
目前大部分在线问答机器人、智能客服机器人、在线客服和语音文本服务等系统,各系统之间相互独立,如果需要实现内部业务个性化需求,则需要依赖供应商改造。如果涉及外购系统之间对接,那么改造难度以及采购成本就非常高,对于供应商来讲,更多愿意做标品开发,不愿意做定制化开发,这导致外部系统在内部使用场景非常有限。
在线问答机器人交互方式大部分仅支持文本交互,或者语音转换效率低下,实施过程中无法有效实现语音文本的相互问答交互,导致场景受限严重,很难推广到更多场景使用。而传统语音呼叫系统方面,无论是自建型呼叫中心还是托管型呼叫中心,都是采用人工坐席客服来提供一对一人工语音服务,无法提供智能分析与智能自动应答,导致需要大量人工客服人员,整体服务效率比较低下。
总之,语音文本转换服务与问答服务系统相互割裂独立,造成语音与文本以及问与答之间转换效率低下,无法高效配合使用;语音问答服务系统与在线问答服务系统相互独立,相关知识库无法高效沉淀,造成资源重复、人员浪费和成本高企;单纯的文本交互式或者语音交互在线问答服务系统无法为部分残障人士提供服务。
发明内容
本发明的目的是针对上述现有技术的不足,提出基于语音和文本协同的智能问答方法及装置,能够提高语音和文本的转换效率和知识库的利用率。
第一方面,本发明提供了一种基于语音和文本协同的智能问答方法,包括:
通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型;
对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答;
将所述多条回答按照置信度排序,并通过文本或语音进行输出。
本发明通过结合语音和文本采集信息和进行回答输出,将语音和文本进行协同,并将语音在线听写和语音离线转写与问答服务系统进行协同,从而提升语音与文本以及问答之间的转换效率,并且通过语音、离线转写和在线听写采集信息,文本或语音进行输出,能够适用于部分残障人士,具有更高的适用性,并且,仅通过一个系统知识库对文本、在线语音听写和离线语音转写输出多条回答,能够提高系统知识库的利用率,减少人工成本;此外,通过语句模型匹配和相关性匹配的两步匹配过程,能够提高对不同句式匹配到对应的回答的精确度,从而提高用户体验感。
结合第一方面,在一些实施例中,通过所述语音在线听写,采集信息,包括:
根据新建与服务器的第一长连接服务,接收在线听写用户请求,根据静态全局变量记录当前用户请求的用户数;
根据所述用户数,并以请求时间为一级优先级的评分和用户优先级为二级优先级的评分,构造排队大堆根,以所述排队大堆根的遍历顺序为降序排列的排队顺序,并按照所述排队顺序,进行采集信息。
本发明采用请求时间和用户优先级的二级指标排序来调控用户的实时语音请求顺序,相比于传统的先进先出的排序队列,本发明能够降低入队和出队的时间复杂度,从而能够提高语音处理效率,提高用户体验感。
结合第一方面,在一些实施例中,所述按照所述排队顺序依次进行采集信息,包括:
按照所述排队顺序,依次将采集的实时第一音频文件流以覆盖的方式转换成在线听写文字,对所述在线听写文字进行后处理,得到待匹配文字;所述待匹配文字用于与语句模型库中的模型进行匹配;所述后处理包括:标点和数字调整,以及鉴别敏感词。
结合第一方面,在一些实施例中,通过所述语音离线转写,采集信息,包括:
根据新建与服务器的第二长连接服务,接收离线用户请求,并将得到编码的第二音频文件流,根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集。
结合第一方面,在一些实施例中,所述根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集,包括:
根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行切分,并将得到的多个切分结果依次进行语音转写,得到多个转写结果,依次将所述多个转写结果进行合并,得到离线文字,对所述离线文字进行后处理,得到待匹配文字。
结合第一方面,在一些实施例中,所述对所述最匹配语句模型进行分词处理,获取核心语义词集,包括:
过滤所述最匹配语句模型中的疑问词和问句特征词,并对得到的过滤结果进行切分,得到语句片段,对所述语句片段进行分词处理,并去除分词结果中的所有辅助词,得到核心语义词集。
结合第一方面,在一些实施例中,所述将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答,包括:
将所述核心语义词集与问答知识库中的词依次进行相关性匹配,通过关键字相关度和词向量相关度检索匹配,得到多条第一回答,并按照置信度对所述多条第一回答进行排序,获取置信度不低于最低阈值的多条第二回答。
本发明将所述信息与语句模型库中的模型进行匹配,并将核心语义词集与问答知识库中的词进行相关性匹配,并过滤的疑问词和问句特征词,采用了语音识别和句式解析方式相结合的方式,使得准确率比传统方案有明显提高,即使当用户语序问法产生明显变化时,仍能够匹配正确的问题并提供回答,从而提高用户体验感。
结合第一方面,在一些实施例中,在所述将所述核心语义词集与问答知识库中的词依次进行相关性匹配之前,还包括:
获取预设的第一回答渠道类别,若未预设所述第一回答渠道类别,则对所述核心语义词集进行渠道分类预测,得到预测的第二回答渠道类别;所述第二回答渠道类别用于标识所述核心语义词集在所述问答知识库中的领域范畴。
结合第一方面,在一些实施例中,通过语音进行输出,包括:
将所述多条回答合成语音文件,并根据新建与服务器的第三长连接服务,接收所述语音文件;
若所述语音文件为实时语音,则根据记录了实时连接的用户数的静态全局变量和排队顺序,依次播报所述语音文件;
若所述语音文件为非实时语音,则将所述语音文件存入缓冲区,并依次进行播报。
第二方面,本发明提供了一种基于语音和文本协同的智能问答装置,包括:采集和匹配单元、分词和匹配单元和输出单元;其中,
所述采集和匹配单元,用于通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型;
所述分词和匹配单元,用于对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答;
所述输出单元,用于将所述多条回答按照置信度排序,并通过文本或语音进行输出。
附图说明
图1是本实施例提供的一种基于语音和文本协同的智能问答方法的流程示意图;
图2是本实施例提供的一种基于语音和文本协同的智能问答装置的结构示意图;
图3是本实施例提供的一种智能问答系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于上述背景,提供一种基于语音和文本协同的智能问答方法和装置,能够实现语音和文本多种输入方式,并且提供语音或者文本应答的智能问答服务,从而能够实现语音和文本协同一体化,并且,语音输入还包括离线输入和在线输入,从而提高了智能回答系统整体配合度,不同方式的输入能够扩展智能问答服务使用场景,尤其对部分残障人士有更高的适用性。通过智能化语音对话,从而在一定程度上减少工作人员的工作量,提高效率,节省成本,并为语音问答服务与文本问答服务提供新的支撑点和行业发展进步空间。为了进一步说明本发明的技术方案,将从以下实施例进行详细说明。
实施例1
参见图1,是本实施例提供的一种基于语音和文本协同的智能问答方法的流程示意图,包括步骤S11~S13,具体为:
步骤S11、通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型。
在一些实施例中,通过文本输入,采集信息,包括:通过输入界面或者接口调用直接获取用户输入的文本。
在一些实施例中,通过所述语音在线听写,采集信息,包括:根据新建与服务器的第一长连接服务,接收在线听写用户请求,根据静态全局变量记录当前用户请求的用户数;根据所述用户数,并以请求时间为一级优先级的评分和用户优先级为二级优先级的评分,构造排队大堆根,以所述排队大堆根的遍历顺序为降序排列的排队顺序,并按照所述排队顺序,进行采集信息。
值得说明的是,第一长连接服务是对实时的语音在线听写的场景建立的。
在一些实施例中,在服务端新建长连接Websocket服务IatWebSocketServerHandler,专门用于接收在线听写相关的请求。
值得说明的是,在线听写属于语音识别能力的一种,用于音频的即时转写。智能回答系统智能语音引擎提供实时语音识别与即时转写的能力,延迟300ms以内,且支持方言,能够达到98%识别率,从而能够提高用户的体验感。
在一些实施例中,若请求时间不同,则按照请求时间的先后顺序,将请求时间在先的用户请求作为排序大堆根的上级节点,当请求时间相同时,则按照用户优先级的高低,先将用户优先级高的作为排序大堆根的上级节点。
在一些实施例中,若用户优先级不同,则按照用户优先级的高低顺序,将用户优先级高的用户请求作为排序大堆根的上级节点,当用户优先级相同时,则按照请求时间的先后顺序,将请求时间在先的用户请求作为排序大堆根的上级节点。
在一些实施例中,设计静态全局变量(比如onlineCount)记录当前连接的用户数,进行服务排队和限流。其中,排队操作按照用户为最高优先级,优先级相同的用户以请求时间为二级优先级进行构建二叉堆,以大根堆的遍历顺序为排队顺序,若有新的用户加入,则进行快速插入,以这种方式能够更好提升了用户体验。
值得说明是,根据请求时间和用户优先级,建立排序大堆根,得到的排序大堆根的遍历顺序即为出队顺序,对排序大堆根进行入队和出队,其时间复杂度均为O(lgn),一次出队和一次入队的总时间复杂度为O(lgn),传统队列的每次入队时间复杂度为O(1),出队时间复杂度却为O(n),一次出队和一次入队的总时间复杂度为O(n),本实施例采用二级指标(请求时间和用户优先级)来限流在线用户,出入队的总时间复杂度更低,出入队效率更高,从而能够提高用户的体验感。
在一些实施例中,按照所述排队顺序依次进行采集信息,包括:按照所述排队顺序,依次将采集的实时第一音频文件流以覆盖的方式转换成在线听写文字,对所述在线听写文字进行后处理,得到待匹配文字;所述待匹配文字用于与语句模型库中的模型进行匹配;所述后处理包括:标点和数字调整,以及鉴别敏感词。
在一些实施例中,依次将采集的实时第一音频文件流以覆盖的方式转换成在线听写文字,包括:调用Websocket接口后,Websocket接口持续返回实时文件流转换成的问题文字,后续返回的会覆盖前面的文字。例如音频文件对应的文字为:今天天气怎么样,Websocket会持续返回以下“今天”,“今天天气”,“今天天气怎么样”。
在一些实施例中,对所述在线听写文字进行后处理,包括:对标点、数字进行规整,替换列表,对黄暴和涉政内容进行高效鉴别,整理完成后的文本提供给下一步骤调用。
在一些实施例中,通过所述语音离线转写,采集信息,包括:根据新建与服务器的第二长连接服务,接收离线用户请求,并将得到编码的第二音频文件流,根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集。
值得说明的是,第二长连接服务是对语音离线转写的场景建立的。离线转写是指对已经录制好的语音记录文件转写为文字的技术。智能回答系统提供离线语音转写文字的能力,支持pcm、wav和mp3等多种音频编码格式支持。
在一些实施例中,在服务端新建长连接websocket服务OstWebSocketServerHandler,专门用于接收离线转写相关的请求。
在一些实施例中,根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集,包括:根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行切分,并将得到的多个切分结果依次进行语音转写,得到多个转写结果,依次将所述多个转写结果进行合并,得到离线文字,对所述离线文字进行后处理,得到待匹配文字。
在一些实施例中,存储阈值为16KB。
在一些实施例中,服务接收到转成base64编码的音频文件流,服务利用不大于16KB的buffer字节组对音频流进行切分,然后依次进行语音转写,最后将所有转写结果进行合并。
在一些实施例中,对所述离线文字进行后处理,包括:对标点、数字进行规整,替换列表,对黄暴和涉政内容进行高效鉴别,整理完成后的文本提供给下一步骤调用。
步骤S12、对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答。
值得说明的是,通过基于深度学习的自然语言处理(NLP)技术和分析能力,分析和理解用户的意图,配合系统知识库提供问题应答、推荐知识和进行业务流程引导等文本交互功能,同时在此基础上对调用方问题进行业务标签的智能标记,进行业务和数据分析,基于平台统一的底层架构,分析每一位用户的关注点,挖掘用户的深层次需求,为客户和客户群体提供个性化的差异服务。
在一些实施例中,对所述最匹配语句模型进行分词处理,获取核心语义词集,包括:过滤所述最匹配语句模型中的疑问词和问句特征词,并对得到的过滤结果进行切分,得到语句片段,对所述语句片段进行分词处理,并去除分词结果中的所有辅助词,得到核心语义词集。
在一些实施例中,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答,包括:将所述核心语义词集与问答知识库中的词依次进行相关性匹配,通过关键字相关度和词向量相关度检索匹配,得到多条第一回答,并按照置信度对所述多条第一回答进行排序,获取置信度不低于最低阈值的多条第二回答。
值得说明的是,第一回答为未排序的多条回答,第二回答为经过置信度排序后,置信度值都不低于最低阈值的多条回答。
在一些实施例中,在所述将所述核心语义词集与问答知识库中的词依次进行相关性匹配之前,还包括:获取预设的第一回答渠道类别,若未预设所述第一回答渠道类别,则对所述核心语义词集进行渠道分类预测,得到预测的第二回答渠道类别;所述第二回答渠道类别用于标识所述核心语义词集在所述问答知识库中的领域范畴。
值得说明的是,第一回答渠道类别为预设的回答渠道类别,第二回答渠道类别是进行渠道分类预测得到的。
在一些实施例中,获取置信度不低于最低阈值的多条回答时,先获取预设的回答渠道类别,若没有设置预设的回答渠道类别,对核心语义刺激进行渠道分类预测,获取核心语义词集在问答知识库中的领域类别,然后将核心语义词集与问答知识库中的词进行相关性匹配,通过关键字相关度和词向量相关度检索匹配,得到多条回答,对多条回答按照置信度进行排序,获取大于或等于最低阈值的回答,以使将得到的回答进行展示。
在一些实施例中,对连续若干次通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式采集信息,并通过文本或语音进行输出看作一个会话回合,即每个会话回合有多次会话,对每次会话进行渠道分类预测时,以当前第二回答渠道类别的分类概率为基准,以预设的运动概率从当前的分类概率游走到当前的分类概率的邻近概率处(即保持当前领域范畴的分类),并以预设的跳跃概率从当前的分类概率跳跃到当前的分类概率的任意概率处(即变更到与当前领域范畴相近的小分类中),对下次渠道类别的分类概率进行预测;其中,运动概率和跳跃概率的总和为1。
在一些实施例中,以随机游走搜索算法进行渠道分类预测;此时,随机游走的跳转发生概率为跳跃概率。
在一些实施例中,以∈-贪婪算法进行渠道分类预测;此时,∈-贪婪算法的利用概率为运动概率,∈-贪婪算法的探索概率为跳跃概率,即:以∈概率为跳跃概率,1-∈概率为运动概率,∈∈(0,1)。
值得说明的是,由于一个会话回合中,会话的大领域并不会发生过多变化,会话的领域范畴多是在大领域中的小领域之间进行变化,因此,对一个会话回合中的领域范畴进行预测时,以跳跃概率和运动概率在小领域之间进行变化,而保持整体大领域的概率稳定。
在一些实施例中,按照置信度对所述多条第一回答进行排序,获取置信度不低于最低阈值的多条第二回答的数量为0,则认为未能理解问题或正确作答,返回相应的标志(比如isAnswer)告知用户;若获取置信度不低于最低阈值的多条第二回答的数量不为0,则认为已经理解用户输入的信息并正确作答,需将置信度最高的一条作为主答案返回给用户,同时返回所有多条第二回答的答案列表,供用户自行选择,具体的输出方式在步骤S13中进行说明。
步骤S13、将所述多条回答按照置信度排序,并通过文本或语音进行输出。
值得说明的是,智能语音系统为问题智能提供了多种应答输出方式,包括文本输出和实时智能语音输出。
在一些实施例中,通过文本进行输出,包括:智能语音系统将置信度最高的一条作为主答案返回给用户,同时返回所有多条第二回答的答案列表直接以文本的方式输出,以使用户通过文本接收。
在一些实施例中,通过语音进行输出,包括:将所述多条回答合成语音文件,并根据新建与服务器的第三长连接服务,接收所述语音文件;若所述语音文件为实时语音,则根据记录了实时连接的用户数的静态全局变量和排队顺序,依次播报所述语音文件;若所述语音文件为非实时语音,则将所述语音文件存入缓冲区,并依次进行播报。
值得说明的是,第三长连接服务是对语音输出的场景建立的。
在一些实施例中,将所述多条回答合成语音文件,包括:获取语音合成请求后,调用语音相关参数进行设置,通过所述语音相关参数,将多条回答合成为base64编码的音频文件流,得到语音文件,以使用户根据接收到的语音文件,进行实时播放完成问答交互,或将所述语音文件保存后进行延时播放和回放;其中,所述相关参数包括:引擎类型(如小语种主持)、音频采样率、音频编码格式、语速、音量、音高、背景音设置、英文发音方式和停顿风格等初始化参数,初始化语音处理引擎
在一些实施例中,在服务端新建长连接websocket服务TtsWebSocketServerHandler,专门用于接收合成的语音文件相关的请求。
在一些实施例中,对于需要实时接收交互的请求,通过静态全局变量onlineCount记录当前连接的用户数,进行服务排队和限流。对于非实时交互,则无需排队,使用智能回答系统缓冲区即可。
在一些实施例中,对实时场景进行语音输出时,根据所述用户数,并以输出的请求时间为一级优先级的评分和用户优先级为二级优先级的评分,再次构造排队大堆根,以所述排队大堆根的遍历顺序为降序排列的排队顺序,并按照所述排队顺序,进行语音输出。
在一些实施例中,若输出的请求时间不同,则按照请求时间的先后顺序,将输出的请求时间在先的用户请求作为排序大堆根的上级节点,当输出的请求时间相同时,则按照用户优先级的高低,先将用户优先级高的作为排序大堆根的上级节点。
在一些实施例中,若用户优先级不同,则按照用户优先级的高低顺序,将用户优先级高的用户请求作为排序大堆根的上级节点,当用户优先级相同时,则按照输出的请求时间的先后顺序,将输出的请求时间在先的用户请求作为排序大堆根的上级节点。
在一些实施例中,对非实时场景进行语音输出时,则将所述语音文件存入缓冲区,并依次进行播报。
在一些实施例中,当采用文本输入时,可直接采用文本输出;当采用语音在线听写或语音离线转写时,可直接通过语音进行输出。
在一些实施例中,通过文本输入、语音在线听写或语音离线转写中的任意一种方式采集信息时,可以通过文本或语音进行输出。
值得说明的是,智能问答系统具备多轮问答能力,能够进行复述式、补充式和追问式的多轮对话场景,用户能够多次对智能回答系统发问,多次循环上述步骤S11~S13,以提供较强的非线性泛化能力,能够根据复杂的上下文内容识别核心意图,并确认最合适的回答方案。
本发明所提供的智能语音问答系统,其核心思路是先利用语音识别算法将问题语音信息转化成文本信息,然后对问题文本信息进行词法语法语义分析处理,配合问答知识库找到与问句最符、置信度最高的答案信息,其有益效果包括:
(1)、通过文本输入、语音输入、文本输出和语音输出整合完成了文本问答系统和语音问答系统一体化平台,大幅提升了知识库的复用效率和沉淀能力,有效增加了系统服务效率,避免资源重复浪费。
(2)、通过将文本输入、音在线听写或语音离线转写与文本或语音的任意两两组合,实现了智能问答系统语音交互方式与文本交互方式的任意组合,扩展了系统的应用场景。
(3)、将所述信息与语句模型库中的模型进行匹配,并将核心语义词集与问答知识库中的词进行相关性匹配,并过滤的疑问词和问句特征词,采用了语音识别和问句解析方式相结合的方式,使得准确率比传统方案有明显提高,即使当用户语序问法产生明显变化时,智能回答系统仍能够匹配正确的问题并提供回答。
(4)、实现了智能问答系统全年无休接待,能够降低人员与资源成本,并通过二级指标排序来调控用户的实时语音请求,降低入队和出队的时间复杂度,从而能够提高语音处理效率,提高用户体验感。
实施例2
参见图2,是本实施例提供的一种基于语音和文本协同的智能问答装置的结构示意图,包括:采集和匹配单元21、分词和匹配单元22和输出单元23。
其中,采集和匹配单元21主要用户采集信息,并对采集信息进行语句模型匹配,将得到的最匹配语句模型传输给分词和匹配单元22;分词和匹配单元22接收到采集和匹配单元21发送的最匹配语句模型后,进行分词和相关性匹配,获取多条回答,并将多条回答传输给输出单元23;输出单元23接收分词和匹配单元22发送的多条回答后,进行文本或语音输出。
采集和匹配单元21,用于通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型。
在一些实施例中,通过所述语音在线听写,采集信息,包括:根据新建与服务器的第一长连接服务,接收在线听写用户请求,根据静态全局变量记录当前用户请求的用户数;根据所述用户数,并以请求时间为一级优先级的评分和用户优先级为二级优先级的评分,构造排队大堆根,以所述排队大堆根的遍历顺序为降序排列的排队顺序,并按照所述排队顺序,进行采集信息。
在一些实施例中,按照所述排队顺序依次进行采集信息,包括:按照所述排队顺序,依次将采集的实时第一音频文件流以覆盖的方式转换成在线听写文字,对所述在线听写文字进行后处理,得到待匹配文字;所述待匹配文字用于与语句模型库中的模型进行匹配;所述后处理包括:标点和数字调整,以及鉴别敏感词。
在一些实施例中,通过所述语音离线转写,采集信息,包括:根据新建与服务器的第二长连接服务,接收离线用户请求,并将得到编码的第二音频文件流,根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集。
在一些实施例中,根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集,包括:根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行切分,并将得到的多个切分结果依次进行语音转写,得到多个转写结果,依次将所述多个转写结果进行合并,得到离线文字,对所述离线文字进行后处理,得到待匹配文字。
分词和匹配单元22,用于对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答。
在一些实施例中,对所述最匹配语句模型进行分词处理,获取核心语义词集,包括:过滤所述最匹配语句模型中的疑问词和问句特征词,并对得到的过滤结果进行切分,得到语句片段,对所述语句片段进行分词处理,并去除分词结果中的所有辅助词,得到核心语义词集。
在一些实施例中,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答,包括:将所述核心语义词集与问答知识库中的词依次进行相关性匹配,通过关键字相关度和词向量相关度检索匹配,得到多条第一回答,并按照置信度对所述多条第一回答进行排序,获取置信度不低于最低阈值的多条第二回答。
在一些实施例中,在所述将所述核心语义词集与问答知识库中的词依次进行相关性匹配之前,还包括:获取预设的第一回答渠道类别,若未预设所述第一回答渠道类别,则对所述核心语义词集进行渠道分类预测,得到预测的第二回答渠道类别;所述第二回答渠道类别用于标识所述核心语义词集在所述问答知识库中的领域范畴。
输出单元23,用于将所述多条回答按照置信度排序,并通过文本或语音进行输出。
在一些实施例中,通过语音进行输出,包括:将所述多条回答合成语音文件,并根据新建与服务器的第三长连接服务,接收所述语音文件;若所述语音文件为实时语音,则根据记录了实时连接的用户数的静态全局变量和排队顺序,依次播报所述语音文件;若所述语音文件为非实时语音,则将所述语音文件存入缓冲区,并依次进行播报。
本实施例通过采集和匹配单元21结合语音和文本采集信息和通过输出单元23进行回答输出,将语音和文本进行协同,并将语音在线听写和语音离线转写与问答服务系统进行协同,从而提升语音与文本以及问答之间的转换效率,并且通过语音、离线转写和在线听写采集信息,文本或语音进行输出,能够适用于部分残障人士,具有更高的适用性,并且,通过分词和匹配单元22使用一个系统知识库对文本、在线语音听写和离线语音转写输出多条回答,能够提高系统知识库的利用率,减少人工成本;此外,通过分词和匹配单元22采用语句模型匹配和相关性匹配的两步匹配过程,能够提高对不同句式匹配到对应的回答的精确度,从而提高用户体验感。
实施例3
参见图3,是本实施例提供的一种智能问答系统的结构示意图。基于实施例1和实施例2,本实施例给出完整的一种智能问答系统的结构。在图3中,智能问答系统包括:问题智能获取单元31、智能问答处理单元32和问题智能应答单元33;其中,问题智能获取单元31包括:智能语音引擎301和文本输入单元302;智能语音引擎301分别对智能语音在线听写单元101和智能语音离线转写单元102进行控制;智能问答处理单元32包括:智能问答处理引擎311、语句模型库单元312、语法语义分析模块313和系统知识库314;问题智能应答单元33包括:文本输出单元321和智能语音引擎301,智能语音引擎301还对智能语音输出单元103进行控制。
值得说明的是,智能语音输出单元103可以进行实时语音输出,或者根据用户偏好进行延时输出或重复输出。
智能问答系统可以通过文本输入单元302、智能语音在线听写单元101或智能语音离线转写单元102采集用户输入的信息,若通过文本输入单元302采集信息,则文本输入单元302直接将信息传输给智能问答处理引擎311,若通过智能语音在线听写单元101或智能语音离线转写单元102采集信息,则需分别通过不同的长连接服务进行处理后,将得到的待匹配文字传输给智能问答处理引擎311,智能问答处理引擎311接收到数据后,与语句模型库单元312进行匹配,语句模型库单元312将结果传输给语法语义分析模块313进行解析,并将解析结果传输给系统知识库进行匹配获取多条回答,或者语法语义分析模块313直接将解析结果传输给智能问答处理引擎311。
在一些实施例中,问题智能获取单元31通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息。
在一些实施例中,语句模型库单元312将智能问答处理引擎311传输的信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型,并将最匹配语句模型传输给语句模型库单元312。
在一些实施例中,语法语义分析模块313对语句模型库单元312传输的最匹配语句模型进行分词处理,获取核心语义词集,并将核心语义词集传输给系统知识库314。
在一些实施例中,系统知识库314接收语法语义分析模块313传输的核心语义词集,并进行相关性匹配,获取置信度不低于最低阈值的多条回答,并将多条回答传输给智能问答处理引擎311。
在一些实施例中,智能问答处理引擎311根据不同的输出方式,将从系统知识库314接收的多条数据进行输出;其中,将所述多条回答按照置信度排序,并通过文本或语音进行输出。
智能问答处理引擎311以不同方式进行输出,若进行文本输出,则将多条回答传输给文本输出单元直接输出,若进行语音输出,则将多条回答传输给智能语音输出单元103进行语音合成后,将语音文件进行播放。
本实施例提供的一种智能回答系统,通过文本输入、语音输入、文本输出和语音输出整合完成了文本问答系统和语音问答系统一体化平台,大幅提升了知识库的复用效率和沉淀能力,有效增加了系统服务效率,避免资源重复浪费。通过将文本输入、音在线听写或语音离线转写与文本或语音的任意两两组合,实现了智能问答系统语音交互方式与文本交互方式的任意组合,扩展了系统的应用场景。将所述信息与语句模型库中的模型进行匹配,并将核心语义词集与问答知识库中的词进行相关性匹配,并过滤的疑问词和问句特征词,采用了语音识别和问句解析方式相结合的方式,使得准确率比传统方案有明显提高,即使当用户语序问法产生明显变化时,智能回答系统仍能够匹配正确的问题并提供回答。实现了智能问答系统全年无休接待,能够降低人员与资源成本,并通过二级指标排序来调控用户的实时语音请求,降低入队和出队的时间复杂度,从而能够提高语音处理效率,提高用户体验感。
本领域内的技术人员应明白,本申请的实施例还可提供包括计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于语音和文本协同的智能问答方法,其特征在于,包括:
通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型;
对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答;
将所述多条回答按照置信度排序,并通过文本或语音进行输出。
2.如权利要求1所述的基于语音和文本协同的智能问答方法,其特征在于,通过所述语音在线听写,采集信息,包括:
根据新建与服务器的第一长连接服务,接收在线听写用户请求,根据静态全局变量记录当前用户请求的用户数;
根据所述用户数,并以请求时间为一级优先级的评分和用户优先级为二级优先级的评分,构造排队大堆根,以所述排队大堆根的遍历顺序为降序排列的排队顺序,并按照所述排队顺序,进行采集信息。
3.如权利要求2所述的基于语音和文本协同的智能问答方法,其特征在于,所述按照所述排队顺序依次进行采集信息,包括:
按照所述排队顺序,依次将采集的实时第一音频文件流以覆盖的方式转换成在线听写文字,对所述在线听写文字进行后处理,得到待匹配文字;所述待匹配文字用于与语句模型库中的模型进行匹配;所述后处理包括:标点和数字调整,以及鉴别敏感词。
4.如权利要求1所述的基于语音和文本协同的智能问答方法,其特征在于,通过所述语音离线转写,采集信息,包括:
根据新建与服务器的第二长连接服务,接收离线用户请求,并将得到编码的第二音频文件流,根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集。
5.如权利要求4所述的基于语音和文本协同的智能问答方法,其特征在于,所述根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行语音转写,进行信息采集,包括:
根据不大于存储阈值的缓存字节组,对所述第二音频文件流进行切分,并将得到的多个切分结果依次进行语音转写,得到多个转写结果,依次将所述多个转写结果进行合并,得到离线文字,对所述离线文字进行后处理,得到待匹配文字。
6.如权利要求1所述的基于语音和文本协同的智能问答方法,其特征在于,所述对所述最匹配语句模型进行分词处理,获取核心语义词集,包括:
过滤所述最匹配语句模型中的疑问词和问句特征词,并对得到的过滤结果进行切分,得到语句片段,对所述语句片段进行分词处理,并去除分词结果中的所有辅助词,得到核心语义词集。
7.如权利要求1所述的基于语音和文本协同的智能问答方法,其特征在于,所述将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答,包括:
将所述核心语义词集与问答知识库中的词依次进行相关性匹配,通过关键字相关度和词向量相关度检索匹配,得到多条第一回答,并按照置信度对所述多条第一回答进行排序,获取置信度不低于最低阈值的多条第二回答。
8.如权利要求7所述的基于语音和文本协同的智能问答方法,其特征在于,在所述将所述核心语义词集与问答知识库中的词依次进行相关性匹配之前,还包括:
获取预设的第一回答渠道类别,若未预设所述第一回答渠道类别,则对所述核心语义词集进行渠道分类预测,得到预测的第二回答渠道类别;所述第二回答渠道类别用于标识所述核心语义词集在所述问答知识库中的领域范畴。
9.如权利要求1所述的基于语音和文本协同的智能问答方法,其特征在于,通过语音进行输出,包括:
将所述多条回答合成语音文件,并根据新建与服务器的第三长连接服务,接收所述语音文件;
若所述语音文件为实时语音,则根据记录了实时连接的用户数的静态全局变量和排队顺序,依次播报所述语音文件;
若所述语音文件为非实时语音,则将所述语音文件存入缓冲区,并依次进行播报。
10.一种基于语音和文本协同的智能问答装置,其特征在于,包括:采集和匹配单元、分词和匹配单元和输出单元;其中,
所述采集和匹配单元,用于通过文本输入、语音在线听写或语音离线转写中的至少任意一种方式,采集信息,并将所述信息与语句模型库中的模型进行匹配,将相似度最高的模型作为所述信息的最匹配语句模型;
所述分词和匹配单元,用于对所述最匹配语句模型进行分词处理,获取核心语义词集,将所述核心语义词集与问答知识库中的词进行相关性匹配,获取置信度不低于最低阈值的多条回答;
所述输出单元,用于将所述多条回答按照置信度排序,并通过文本或语音进行输出。
CN202410201055.2A 2024-02-23 2024-02-23 基于语音和文本协同的智能问答方法及装置 Pending CN118069805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410201055.2A CN118069805A (zh) 2024-02-23 2024-02-23 基于语音和文本协同的智能问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410201055.2A CN118069805A (zh) 2024-02-23 2024-02-23 基于语音和文本协同的智能问答方法及装置

Publications (1)

Publication Number Publication Date
CN118069805A true CN118069805A (zh) 2024-05-24

Family

ID=91105238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410201055.2A Pending CN118069805A (zh) 2024-02-23 2024-02-23 基于语音和文本协同的智能问答方法及装置

Country Status (1)

Country Link
CN (1) CN118069805A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247068A1 (en) * 2013-11-01 2016-08-25 Tencent Technology (Shenzhen) Company Limited System and method for automatic question answering
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN111009244A (zh) * 2019-12-06 2020-04-14 贵州电网有限责任公司 语音识别方法及系统
CN116737911A (zh) * 2023-08-14 2023-09-12 北京健康有益科技有限公司 基于深度学习的高血压问答方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247068A1 (en) * 2013-11-01 2016-08-25 Tencent Technology (Shenzhen) Company Limited System and method for automatic question answering
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN111009244A (zh) * 2019-12-06 2020-04-14 贵州电网有限责任公司 语音识别方法及系统
CN116737911A (zh) * 2023-08-14 2023-09-12 北京健康有益科技有限公司 基于深度学习的高血压问答方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宝锺: "大数据分类模型和算法研究", vol. 1, 31 January 2020, 昆明:云南大学出版社, pages: 119 *

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US11645547B2 (en) Human-machine interactive method and device based on artificial intelligence
CN108288468B (zh) 语音识别方法及装置
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
EP2157570B1 (en) Automatic conversation system and conversation scenario editing device
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
CN115587175A (zh) 人机对话及预训练语言模型训练方法、系统及电子设备
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN111489754A (zh) 一种基于智能语音技术的话务数据分析方法
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN111414748A (zh) 话务数据处理方法及装置
CN112150103B (zh) 一种日程设置方法、装置和存储介质
CN118069805A (zh) 基于语音和文本协同的智能问答方法及装置
CN113822506A (zh) 一种用于电力调控的多轮次语音交互智能检索系统及方法
CN113435902A (zh) 一种基于语音信息分析的智能物流客服机器人
CN113505612B (zh) 多人对话语音实时翻译方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination