CN108509477A - 语义识别方法、电子装置及计算机可读存储介质 - Google Patents
语义识别方法、电子装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108509477A CN108509477A CN201710928258.1A CN201710928258A CN108509477A CN 108509477 A CN108509477 A CN 108509477A CN 201710928258 A CN201710928258 A CN 201710928258A CN 108509477 A CN108509477 A CN 108509477A
- Authority
- CN
- China
- Prior art keywords
- morpheme
- word sequence
- client
- word
- standard words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000015654 memory Effects 0.000 claims description 22
- 238000004321 preservation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义识别方法,属于意图识别领域。一种语义识别方法,包括如下步骤:S1、构建语素知识库;S2、构建同义词库;S3、接收客户的服务会话请求,并创建与客户的客户服务会话;S4、对客户服务会话的内容进行分析,得到表述用户服务会话的仅包含有标准词的词序列;S5、判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;S6、根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。本发明通过判断客户问题中缺失的语素,然后以向客户进行追问的方式获取一个表述完整的问题,以便准确识别客户提问的意图,向客户发送客户想要的答案。
Description
技术领域
本发明涉及意图识别领域,涉及一种语义识别方法、电子装置及计算机可读存储介质。
背景技术
随着互联网的飞速发展,人们服务意识的提高,网络客服已经普及到各行各业,深入到日常商业服务的各个环节。
目前,常见的网络客户通常由智能客服机器人和人工客服组成,其中智能客服机器人是通过语义分析定位客户的问题,使得客户像与自然人对话一样与机器人交谈,在自然的交互过程中通过多种表现形式得到特定领域问题的解决方法。相较于传统的客服方式,智能客服可以实现昼夜和节假日的全天候服务,分流人工客服负担,从而有效降低企业客服领域的运营成本。
虽然智能客服机器人可在一定程度上快速响应客户的需求,但是客户普遍反应智能客服机器人较“笨”,经常无法准确识别客户的意思,在客户问题中的关键词较少时,智能客服机器人通常会随意给出一个相关度较低的答案或者直接显示无法回答字样。
因此,现有智能客服机器人的还难以有效满足顾客的服务需求,客户体验普遍较差,很多客户不愿与智能客服机器人交流,很多时候直接点人工客服,使得智能客服机器人不高,无法有效缓解人工客服的压力。
发明内容
本发明要解决的技术问题是为了克服现有技术中智能客服机器人无法准确识别客户意图的问题,提出了一种语义识别方法、电子装置及计算机可读存储介质,通过将客户的提问划分为几大语素,在客户的提问缺少语素时,通过追问的方式,以准确识别客户提问的意图。
本发明是通过下述技术方案来解决上述技术问题:
一种语义识别方法,包括如下步骤:
S1、构建语素知识库,存储有若干用于构建智能问答的问题-答案对,所述问题为由若干关键词组成的词序列,所述词序列通过多个语素间具有指向性的关联进行表述,且多个词序列中相同的关键词均由同一个语素进行关联;
S2、构建同义词库,存储有若干由标准词关联该标准词的近义词组成的词群,所述标准词与语素知识库中的语素相对应;
S3、接收客户的服务会话请求,并创建与所述客户的客户服务会话;
S4、对客户服务会话的内容进行分析,得到表述所述用户服务会话的仅包含有标准词的词序列;
S5、判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;
S6、根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。
优选地,步骤S1具体包括以下分步骤:
S11、搜集并整理问题和与该问题相匹配的答案,构建成问题-答案对并保存;
S12、将问题拆分成由若干关键词组成的词序列;
S13、将所有词序列中的关键词组成一个关键词集合并后去重,得到语素集合;
S14、将词序列用语素集合中若干个语素之间具有指向性的关联组成表达式进行表述,并将该表达式与该词序列所对应的问题进行关联保存。
其中,所述语素分为动词、名词和专业名词三类语素,表述一个词序列的表达式中各类语素至少包含一个。
优选地,步骤S4具体包括以下分步骤:
S41、分词,将客户服务会话的内容拆分成由若干个词组成的词序列;
S42、去停用词,将分词得到的词序列中的停用词去掉,得到仅包含关键词的词序列;
S43、替换同义词,判断去停用词后的词序列中的关键词是否属于同义词库中的标准词,若不是则用同义词库中的标准词替换该关键词;
S44、输出仅包含有标准词的词序列;
优选地,,分步骤S43具体包括以下子步骤:
S431、获取去停用词后的词序列中的关键词;
S432、将获取的关键词与同义词库中的标准词进行一一比对;
S433、判断同义词库中是否具有与所述获取的关键词相匹配的标准词,若是则执行步骤S435,若否则执行步骤S434;
S434、将获取的关键词与同义词库中的近义词进行一一比对,找出与所述获取的关键词相同的同义词,并将该同义词所关联的标准词替换所述获取的关键词在去停用词后的词序列中的位置;
S435、判断所述获取的关键词是否为所述去停用词后的词序列中的最后一个词,若是则执行步骤S436,若否则执行步骤S431;
S436、生成仅包含有标准词的词序列。
优选地,步骤S5具体包括以下分步骤:
S51、将步骤S44输出的词序列中的标准词逐个与语素集合中的各语素进行匹配,找到与该标准词相匹配的语素;
S52、根据找到的语素之间具有指向性的关联,判断所述词序列是否缺失语素,若是则执行步骤S53,若否则执行步骤S6;
S53、生成向客户追问缺失语素的问题并发送给客户;
S54、接收客户的回答,以补足步骤S44输出的词序列中缺失的语素;
S55、输出包含有完整语素的仅包含有标准词的词序列。
其中,所述向客户追问缺失语素的问题包括枚举式追问的问题和开放式追问的问题。
优选地,步骤S6包括以下分步骤:
S61、将步骤S55输出的词序列与语素知识库中的词序列进行一一比对,找到语素知识库中与该词序列相匹配的问题;
S62、将与该问题对应的答案发送给客户。
一种电子装置,包括存储器和处理器,所述存储器上存储有可被所述处理器执行的语义识别系统,所述语义识别系统包括:
语素知识库,存储有若干用于构建智能问答的问题-答案对,所述问题为由若干关键词组成的词序列,所述词序列通过多个语素间具有指向性的关联进行表述,且多个词序列中相同的关键词均由同一个语素进行关联;
同义词库,存储有若干由标准词关联该标准词的近义词组成的词群,所述标准词与语素知识库中的语素相对应;
会话连接模块,用于接收客户的服务会话请求,并创建与所述客户的客户服务会话;
会话分析模块,用于对客户服务会话的内容进行分析,以得到表述所述用户服务会话的仅包含有标准词的词序列;
追问模块,用于判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;
答案匹配模块,用于根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。
一种计算机可读存储介质,所述计算机可读存储介质内存储有语义识别系统,所述语义识别系统可被至少一个处理器所执行,以使所述至少一个处理器执行如前述任一项所述的语义识别方法的步骤。
本发明的积极进步效果在于:本发明通过判断客户问题中缺失的语素,然后以向客户进行追问的方式获取一个表述完整的问题,以便准确识别客户提问的意图,向客户发送客户想要的答案。
附图说明
图1示出了本发明电子装置一实施例的硬件架构示意图;
图2示出了本发明电子装置中语义识别系统一实施例的程序模块示意图;
图3示出了本发明语义识别方法第一实施例的流程图;
图4示出了本发明语义识别方法第二实施例中构建标准知识库的流程图;
图5示出了本发明语义识别方法第二实施例中语素指向性关联的示意图;
图6示出了本发明语义识别方法第三实施例中会话分析的流程图;
图7示出了本发明语义识别方法第四实施例中会话分析中的替换同义词的流程图;
图8示出了本发明语义识别方法第五实施例中追问缺失语素的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
首先,本发明提出了一种电子装置。
参阅图1所示,是本发明电子装置一实施例的硬件架构示意图。本实施例中,所述电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及语义识别系统20。其中:
所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述语义识别系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的语义识别系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与外部终端相连,在所述电子装置2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图1仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
在本实施例中,存储于存储器21中的所述语义识别系统20可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器11中,并可由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。
例如,图2示出了所述语义识别系统20一实施例的程序模块示意图,该实施例中,所述语义识别系统20可以被分割为语素知识库201、同义词库202、会话连接模块203、会话分析模块204、追问模块205和答案匹配模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述语义识别系统20在所述电子装置1中的执行过程。以下描述将具体介绍所述程序模块201-206的具体功能。
所述语素知识库201,存储有若干用于构建智能问答的问题-答案对,所述问题为由若干关键词组成的词序列,所述词序列通过多个语素间具有指向性的关联进行表述,且多个词序列中相同的关键词均由同一个语素进行关联;
所述同义词库202,存储有若干由标准词关联该标准词的近义词组成的词群,所述标准词与语素知识库中的语素相对应;
所述会话连接模块203,用于接收客户的服务会话请求,并创建与所述客户的客户服务会话;
所述会话分析模块204,用于对客户服务会话的内容进行分析,以得到表述所述用户服务会话的仅包含有标准词的词序列;
所述追问模块205,用于判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;
所述答案匹配模块206,用于根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。
本实施例中所述语义识别系统20,可以在客户问题不完整时,通过向客户询问缺失部分的内容进一步追问客户意图,提高答案推送的准确率。下面以客户询问信用卡相关的问题为例加以具体说明:
1、通过会话连接模块与客户建立服务会话并接收客户的问题。
2、通过会话分析模块对客户服务会话的内容进行实时分析,当客户输入“信用卡自动还钱”时,将“信用卡自动还钱”拆分为关键词组成的词序列“信用卡自动还钱”,再判断该词序列中的关键词是否为同义词库中标准词,若为非标准词,则用于该关键词相关联的标准词进行替换,这里具体用标准词“还款”替换非标准词“还钱”。
3、通过追问模块向客户追问问题缺失的部分,追问的问题可以是“您是想查询信用卡自动还款的什么?”,接收客户的回答,比如“如何办理”,得到客户完整意图,即“如何办理信用卡自动还款?”。
4、通过答案匹配模块,从语素知识库中找出客户选择的问题相匹配的答案推送给客户。
本实施例中,标准知识库和同义词库都为预先维护在系统中的,并可根据实际情况做相应的修改、增加等。
其次,本发明提出一种语义识别方法。
在第一实施例中,如图3所示,所述的语义识别方法包括如下步骤:
S1、构建语素知识库,存储有若干用于构建智能问答的问题-答案对,所述问题为由若干关键词组成的词序列,所述词序列通过多个语素间具有指向性的关联进行表述,且多个词序列中相同的关键词均由同一个语素进行关联;
S2、构建同义词库,存储有若干由标准词关联该标准词的近义词组成的词群,所述标准词与语素知识库中的语素相对应;
S3、接收客户的服务会话请求,并创建与所述客户的客户服务会话;
S4、对客户服务会话的内容进行分析,得到表述所述用户服务会话的仅包含有标准词的词序列;
S5、判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;
S6、根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。
需要说明的是,步骤S1中的构建标准知识库和步骤S2中的构建同义词库为预先维护在系统中的,无需每次使用都维护一次,只要在内容需要更新时维护便可,维护方式可以是手动维护、系统自动抓取信息后自动维护或者两者相结合维护。
基于上述第一实施例,在第二实施例中,如图4所示,所述步骤S1具体包括以下分步骤:
S11、搜集并整理问题和与该问题相匹配的答案,构建成问题-答案对并保存;
S12、将问题拆分成由若干关键词组成的词序列;
S13、将所有词序列中的关键词组成一个关键词集合并后去重,得到语素集合;
S14、将词序列用语素集合中若干个语素之间具有指向性的关联组成表达式进行表述,并将该表达式与该词序列所对应的问题进行关联保存。
下面以有关信用卡方面的问题维护为例对标准知识库的构建流程做具体说明:
标准问题1:如何申请办理信用卡自动还款?
标准问题2:信用卡自动还款借记卡余额不足怎么办?
标准问题3:如何设置信用卡自动还款日期?
1、针对3个标准问题分别查找相对应的答案,将答案和3个标准问题分别对应构建成标准问题-答案对并保存在标准知识库中。
2、将3个标准问分别拆分成词序列,分别为:“如何申请办理信用卡自动还款”、“信用卡自动还款借记卡余额不足怎么办”和“如何设置信用卡自动还款日期”。
3、去除词序列中的停用词,生成3组由若干关键词组成的词序列,分别为“办理信用卡自动还款”、“信用卡自动还款余额不足”和“设置信用卡自动还款日期”,然后将3个词序列中的关键词去重,得到语素集合“办理信用卡自动还款余额不足设置日期”。
4、将词序列用语素集合中若干个语素之间具有指向性的关联组成表达式进行表述,前述语素之间的指向性关系为:“办理”、“设置”都指向“信用卡”,“信用卡”指向“自动”指向“还款”,“还款”指向“日期”和“余额”,“余额”指向“不足”(如图5所示);组成的表达式即为“办理信用卡自动还款”、“信用卡自动还款余额不足”和“设置信用卡自动还款日期”,将这些表达式与各自对应的标准问题关联保存在标准知识库中。
需要说明的是,本实施例中所述语素分为动词、名词和专业名词三类语素,表述一个词序列的表达式中各类语素至少包含一个。
基于上述第二实施例,在第三实施例中,如图6所示,所述步骤S4具体包括以下分步骤:
S41、分词,将客户服务会话的内容拆分成由若干个词组成的词序列;
S42、去停用词,将分词得到的词序列中的停用词去掉,得到仅包含关键词的词序列;
S43、替换同义词,判断去停用词后的词序列中的关键词是否属于同义词库中的标准词,若不是则用同义词库中的标准词替换该关键词;
S44、输出仅包含有标准词的词序列。
接上例,以客户输入问题“信用卡自动还钱”,以此为例具体说明会话分析的流程:
1、将客户的问题“信用卡自动还钱”拆分为“信用卡自动还钱”的词序列。
2、提取出前述词序列中的关键词“信用卡自动还钱”。
3、将前述仅包含关键词的词序列中的“还钱”用“还款”替换,生成仅包含有标准词的词序列“信用卡自动还款”。
4、输出词序列“信用卡自动还款”。
基于上述第三实施例,在第四实施例中,如图7所示,分步骤S43具体包括以下子步骤:
S431、获取去停用词后的词序列中的关键词;
S432、将获取的关键词与同义词库中的标准词进行一一比对;
S433、判断同义词库中是否具有与所述获取的关键词相匹配的标准词,若是则执行步骤S435,若否则执行步骤S434;
S434、将获取的关键词与同义词库中的近义词进行一一比对,找出与所述获取的关键词相同的同义词,并将该同义词所关联的标准词替换所述获取的关键词在去停用词后的词序列中的位置;
S435、判断所述获取的关键词是否为所述去停用词后的词序列中的最后一个词,若是则执行步骤S436,若否则执行步骤S431;
S436、生成仅包含有标准词的词序列。
接上例,以对简化词序列“信用卡自动还钱”进行替换同义词为例具体说明替换过程:
1、获取仅包含有关键词的词序列“信用卡自动还钱”中的第一个关键词“信用卡”;
2、将关键词“信用卡”与同义词库中的标准词进行比对,找到一样的词“信用卡”;
3、判断关键词“信用卡”不是词序列“信用卡自动还钱”中的最后一个词;
4、获取仅包含有关键词的词序列“信用卡自动还钱”中的第二个关键词“自动”,重复前面的步骤;
5、获取仅包含有关键词的词序列“信用卡自动还钱”中的第三个关键词“还钱”;
6、将关键词“还钱”与同义词库中的标准词进行比对,没有找到一样的词;
7、将关键词“还钱”与同义词库中的近义词进行比对,找到一样的词“还钱”,用词“还钱”关联的标准词“还款”替换仅包含有关键词的词序列中的关键词“还钱”;
8、判断关键词“还钱”是词序列“信用卡自动还钱”中的最后一个词;
9、生成仅包含有标准词的词序列“信用卡自动还款”。
基于上述第四实施例,在第五实施例中,如图8所示,步骤S5具体包括以下分步骤:
S51、将步骤S44输出的词序列中的标准词逐个与语素集合中的各语素进行匹配,找到与该标准词相匹配的语素;
S52、根据找到的语素之间具有指向性的关联,判断所述词序列是否缺失语素,若是则执行步骤S53,若否则执行步骤S6;
S53、生成向客户追问缺失语素的问题并发送给客户;
S54、接收客户的回答,以补足步骤S44输出的词序列中缺失的语素;
S55、输出包含有完整语素的仅包含有标准词的词序列。
接上例,以客户问题“信用卡自动还钱”为例具体说明语素补足的流程:
1、客户问题“信用卡自动还钱”经步骤S44后输出词序列“信用卡自动还款”,将该词序列中的各标准词与语素集合中的各语素进行匹配,找到相匹配的语素“信用卡”、“自动”、“还款”。
2、前述三个语素“信用卡”、“自动”、“还款”之间指向性关联可有三个不同的标准问题,各自缺少不同的语素,比如缺少动词语素“办理”,缺少动词语素“设置”和名词语素“日期”等。
3、生成追问的问题推送,比如推送问题:“您是要申请办理信用卡自动还款么”或者“您是要设置信用卡自动还款日期么”或者“您是要咨询信用卡自动还款借记卡余额不足怎么办么”。
4、接收客户的回答,补足缺失的语素,比如客户选择第一个问题,即补足的语素为“办理”。
5、输出包含有完整语素的仅包含有标准词的词序列“办理信用卡自动还款”。
需要说明的是,所述向客户追问缺失语素的问题包括枚举式追问的问题和开放式追问的问题。当可能相关的问题多于三个时,推荐开放式追问;而当相关问题小于或等于三个时,推荐枚举式追问。本例中,相关标准问题仅3个,因此采取了枚举式追问的方式。
基于上述第五实施例,在第六实施例中,步骤S6具体包括以下分步骤:
S61、将步骤S55输出的词序列与语素知识库中的词序列进行一一比对,找到语素知识库中与该词序列相匹配的问题;
S62、将与该问题对应的答案发送给客户。
接上例,以步骤S55输出词序列“办理信用卡自动还款”为例加以具体说明:
1、将词序列“办理信用卡自动还款”与语素知识库中的词序列进行一一比对,找到一样的词序列相匹配的问题为“如何申请办理信用卡自动还款?”。
2、将与问题“如何申请办理信用卡自动还款?”相对应的答案发送给客户。
此外,本发明一种计算机可读存储介质,该计算机可读存储介质内存储有语义识别系统20,该语义识别系统20可被一个或多个处理器执行时,实现上述语义识别方法或电子装置的操作。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种语义识别方法,其特征在于,包括如下步骤:
S1、构建语素知识库,存储有若干用于构建智能问答的问题-答案对,所述问题为由若干关键词组成的词序列,所述词序列通过多个语素间具有指向性的关联进行表述,且多个词序列中相同的关键词均由同一个语素进行关联;
S2、构建同义词库,存储有若干由标准词关联该标准词的近义词组成的词群,所述标准词与语素知识库中的语素相对应;
S3、接收客户的服务会话请求,并创建与所述客户的客户服务会话;
S4、对客户服务会话的内容进行分析,得到表述所述用户服务会话的仅包含有标准词的词序列;
S5、判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;
S6、根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。
2.根据权利要求1所述的语义识别方法,其特征在于,步骤S1具体包括以下分步骤:
S11、搜集并整理问题和与该问题相匹配的答案,构建成问题-答案对并保存;
S12、将问题拆分成由若干关键词组成的词序列;
S13、将所有词序列中的关键词组成一个关键词集合并后去重,得到语素集合;
S14、将词序列用语素集合中若干个语素之间具有指向性的关联组成表达式进行表述,并将该表达式与该词序列所对应的问题进行关联保存。
3.根据权利要求2所述的语义识别方法,其特征在于,所述语素分为动词、名词和专业名词三类语素,表述一个词序列的表达式中各类语素至少包含一个。
4.根据权利要求2所述的语义识别方法,其特征在于,步骤S4具体包括以下分步骤:
S41、分词,将客户服务会话的内容拆分成由若干个词组成的词序列;
S42、去停用词,将分词得到的词序列中的停用词去掉,得到仅包含关键词的词序列;
S43、替换同义词,判断去停用词后的词序列中的关键词是否属于同义词库中的标准词,若不是则用同义词库中的标准词替换该关键词;
S44、输出仅包含有标准词的词序列。
5.根据权利要求4所述的语义识别方法,其特征在于,分步骤S43具体包括以下子步骤:
S431、获取去停用词后的词序列中的关键词;
S432、将获取的关键词与同义词库中的标准词进行一一比对;
S433、判断同义词库中是否具有与所述获取的关键词相匹配的标准词,若是则执行步骤S435,若否则执行步骤S434;
S434、将获取的关键词与同义词库中的近义词进行一一比对,找出与所述获取的关键词相同的同义词,并将该同义词所关联的标准词替换所述获取的关键词在去停用词后的词序列中的位置;
S435、判断所述获取的关键词是否为所述去停用词后的词序列中的最后一个词,若是则执行步骤S436,若否则执行步骤S431;
S436、生成仅包含有标准词的词序列。
6.根据权利要求4所述的语义识别方法,其特征在于,步骤S5具体包括以下分步骤:
S51、将步骤S44输出的词序列中的标准词逐个与语素集合中的各语素进行匹配,找到与该标准词相匹配的语素;
S52、根据找到的语素之间具有指向性的关联,判断所述词序列是否缺失语素,若是则执行步骤S53,若否则执行步骤S6;
S53、生成向客户追问缺失语素的问题并发送给客户;
S54、接收客户的回答,以补足步骤S44输出的词序列中缺失的语素;
S55、输出包含有完整语素的仅包含有标准词的词序列。
7.根据权利要求6所述的语义识别方法,其特征在于,所述向客户追问缺失语素的问题包括枚举式追问的问题和开放式追问的问题。
8.根据权利要求6所述的语义识别方法,其特征在于,步骤S6包括以下分步骤:
S61、将步骤S55输出的词序列与语素知识库中的词序列进行一一比对,找到语素知识库中与该词序列相匹配的问题;
S62、将与该问题对应的答案发送给客户。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器上存储有可被所述处理器执行的语义识别系统,所述语义识别系统包括:
语素知识库,存储有若干用于构建智能问答的问题-答案对,所述问题为由若干关键词组成的词序列,所述词序列通过多个语素间具有指向性的关联进行表述,且多个词序列中相同的关键词均由同一个语素进行关联;
同义词库,存储有若干由标准词关联该标准词的近义词组成的词群,所述标准词与语素知识库中的语素相对应;
会话连接模块,用于接收客户的服务会话请求,并创建与所述客户的客户服务会话;
会话分析模块,用于对客户服务会话的内容进行分析,以得到表述所述用户服务会话的仅包含有标准词的词序列;
追问模块,用于判断所述仅包含有标准词的词序列中缺失的语素并向客户追问,以得到一个意图表达完整的仅包含有标准词的词序列;
答案匹配模块,用于根据意图表达完整的仅包含有标准词的词序列找出语素知识库中与之相匹配的答案并推送给客户。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有语义识别系统,所述语义识别系统可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-8中任一项所述的语义识别方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710928258.1A CN108509477B (zh) | 2017-09-30 | 2017-09-30 | 语义识别方法、电子装置及计算机可读存储介质 |
PCT/CN2018/077426 WO2019062010A1 (zh) | 2017-09-30 | 2018-02-27 | 语义识别方法、电子装置及计算机可读存储介质 |
US16/635,552 US11392775B2 (en) | 2017-09-30 | 2018-02-27 | Semantic recognition method, electronic device, and computer-readable storage medium |
SG11202001873SA SG11202001873SA (en) | 2017-09-30 | 2018-02-27 | Semantic recognition method, electronic device , and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710928258.1A CN108509477B (zh) | 2017-09-30 | 2017-09-30 | 语义识别方法、电子装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108509477A true CN108509477A (zh) | 2018-09-07 |
CN108509477B CN108509477B (zh) | 2019-10-11 |
Family
ID=63375258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710928258.1A Active CN108509477B (zh) | 2017-09-30 | 2017-09-30 | 语义识别方法、电子装置及计算机可读存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11392775B2 (zh) |
CN (1) | CN108509477B (zh) |
SG (1) | SG11202001873SA (zh) |
WO (1) | WO2019062010A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388695A (zh) * | 2018-09-27 | 2019-02-26 | 深圳前海微众银行股份有限公司 | 用户意图识别方法、设备及计算机可读存储介质 |
CN109684540A (zh) * | 2018-12-11 | 2019-04-26 | 北京奇点机智科技有限公司 | 服务信息交互的方法和装置 |
CN109727598A (zh) * | 2018-12-28 | 2019-05-07 | 浙江省公众信息产业有限公司 | 大噪音语境下的意图识别方法 |
CN110688838A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN110874394A (zh) * | 2019-10-12 | 2020-03-10 | 中国平安财产保险股份有限公司 | 智能答疑方法、电子装置及存储介质 |
CN110942773A (zh) * | 2019-12-10 | 2020-03-31 | 上海雷盎云智能技术有限公司 | 语音控制智能家居设备的方法及装置 |
CN112183114A (zh) * | 2020-08-10 | 2021-01-05 | 招联消费金融有限公司 | 模型训练、语义完整性识别方法和装置 |
CN112802569A (zh) * | 2021-02-05 | 2021-05-14 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
CN112885348A (zh) * | 2021-01-25 | 2021-06-01 | 广州中汇信息科技有限公司 | 结合ai智能语音电销方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7172226B2 (ja) * | 2018-07-20 | 2022-11-16 | 株式会社リコー | 検索装置、検索方法及び検索プログラム |
US10978069B1 (en) * | 2019-03-18 | 2021-04-13 | Amazon Technologies, Inc. | Word selection for natural language interface |
CN113409789B (zh) * | 2021-08-03 | 2021-10-29 | 深圳市一号互联科技有限公司 | 智能语音通话方法、装置及系统 |
CN113630309B (zh) * | 2021-08-12 | 2022-11-01 | 深圳追一科技有限公司 | 机器人会话系统、方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1512484A (zh) * | 2002-12-27 | 2004-07-14 | 联想(北京)有限公司 | 一种自然语言的组织和识别方法 |
CN1936885A (zh) * | 2005-09-21 | 2007-03-28 | 富士通株式会社 | 一种基于语素标注的自然语言成分识别、校正装置及方法 |
CN102194005A (zh) * | 2011-05-26 | 2011-09-21 | 卢玉敏 | 聊天机器人系统及自动聊天方法 |
US20120131060A1 (en) * | 2010-11-24 | 2012-05-24 | Robert Heidasch | Systems and methods performing semantic analysis to facilitate audio information searches |
CN106649762A (zh) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | 基于追问问题与反馈信息的意图识别方法、系统 |
CN107025297A (zh) * | 2017-04-18 | 2017-08-08 | 上海斐讯数据通信技术有限公司 | 一种聊天机器人及其自动聊天方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101545215B1 (ko) * | 2013-10-30 | 2015-08-18 | 삼성에스디에스 주식회사 | 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 |
US9589050B2 (en) * | 2014-04-07 | 2017-03-07 | International Business Machines Corporation | Semantic context based keyword search techniques |
US10503761B2 (en) * | 2014-07-14 | 2019-12-10 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
JP6414956B2 (ja) * | 2014-08-21 | 2018-10-31 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
US9946763B2 (en) * | 2014-11-05 | 2018-04-17 | International Business Machines Corporation | Evaluating passages in a question answering computer system |
KR102033435B1 (ko) * | 2014-11-19 | 2019-11-11 | 한국전자통신연구원 | 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 |
US11048737B2 (en) * | 2015-11-16 | 2021-06-29 | International Business Machines Corporation | Concept identification in a question answering system |
CN110019701B (zh) * | 2017-09-18 | 2021-12-31 | 京东方科技集团股份有限公司 | 用于问答服务的方法、问答服务系统以及存储介质 |
-
2017
- 2017-09-30 CN CN201710928258.1A patent/CN108509477B/zh active Active
-
2018
- 2018-02-27 SG SG11202001873SA patent/SG11202001873SA/en unknown
- 2018-02-27 WO PCT/CN2018/077426 patent/WO2019062010A1/zh active Application Filing
- 2018-02-27 US US16/635,552 patent/US11392775B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1512484A (zh) * | 2002-12-27 | 2004-07-14 | 联想(北京)有限公司 | 一种自然语言的组织和识别方法 |
CN1936885A (zh) * | 2005-09-21 | 2007-03-28 | 富士通株式会社 | 一种基于语素标注的自然语言成分识别、校正装置及方法 |
US20120131060A1 (en) * | 2010-11-24 | 2012-05-24 | Robert Heidasch | Systems and methods performing semantic analysis to facilitate audio information searches |
CN102194005A (zh) * | 2011-05-26 | 2011-09-21 | 卢玉敏 | 聊天机器人系统及自动聊天方法 |
CN106649762A (zh) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | 基于追问问题与反馈信息的意图识别方法、系统 |
CN107025297A (zh) * | 2017-04-18 | 2017-08-08 | 上海斐讯数据通信技术有限公司 | 一种聊天机器人及其自动聊天方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388695A (zh) * | 2018-09-27 | 2019-02-26 | 深圳前海微众银行股份有限公司 | 用户意图识别方法、设备及计算机可读存储介质 |
CN109684540A (zh) * | 2018-12-11 | 2019-04-26 | 北京奇点机智科技有限公司 | 服务信息交互的方法和装置 |
CN109684540B (zh) * | 2018-12-11 | 2021-04-06 | 北京奇点机智科技有限公司 | 服务信息交互的方法和装置 |
CN109727598A (zh) * | 2018-12-28 | 2019-05-07 | 浙江省公众信息产业有限公司 | 大噪音语境下的意图识别方法 |
CN110688838B (zh) * | 2019-10-08 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN110688838A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN110874394A (zh) * | 2019-10-12 | 2020-03-10 | 中国平安财产保险股份有限公司 | 智能答疑方法、电子装置及存储介质 |
CN110942773A (zh) * | 2019-12-10 | 2020-03-31 | 上海雷盎云智能技术有限公司 | 语音控制智能家居设备的方法及装置 |
CN112183114A (zh) * | 2020-08-10 | 2021-01-05 | 招联消费金融有限公司 | 模型训练、语义完整性识别方法和装置 |
CN112183114B (zh) * | 2020-08-10 | 2024-05-14 | 招联消费金融股份有限公司 | 模型训练、语义完整性识别方法和装置 |
CN112885348A (zh) * | 2021-01-25 | 2021-06-01 | 广州中汇信息科技有限公司 | 结合ai智能语音电销方法 |
CN112885348B (zh) * | 2021-01-25 | 2024-03-08 | 广州中汇信息科技有限公司 | 结合ai智能语音电销方法 |
CN112802569A (zh) * | 2021-02-05 | 2021-05-14 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
CN112802569B (zh) * | 2021-02-05 | 2023-08-08 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108509477B (zh) | 2019-10-11 |
US11392775B2 (en) | 2022-07-19 |
SG11202001873SA (en) | 2020-04-29 |
WO2019062010A1 (zh) | 2019-04-04 |
US20200257860A1 (en) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509477B (zh) | 语义识别方法、电子装置及计算机可读存储介质 | |
CN107688667A (zh) | 智能机器人客服方法、电子装置及计算机可读存储介质 | |
CN108509476A (zh) | 问题联想推送方法、电子装置及计算机可读存储介质 | |
CN107807960B (zh) | 智能客服方法、电子装置及计算机可读存储介质 | |
CN107832291A (zh) | 人机协作的客服方法、电子装置及存储介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN110795697A (zh) | 逻辑表达式的获取方法、装置、存储介质以及电子装置 | |
CN110120912A (zh) | 富媒体内容处理方法、装置、可读存储介质和计算机设备 | |
CN111932135B (zh) | 基于分布式数据库的客户风险识别方法及装置 | |
CN114936727A (zh) | 一种工单派发系统、方法及计算机设备 | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
WO2023272862A1 (zh) | 基于网络行为数据的风控识别方法、装置、电子设备及介质 | |
CN111488735B (zh) | 测试语料生成方法、装置及电子设备 | |
KR20190131270A (ko) | 질의자 의도를 이해하기 위한 구문 규칙 자동생성 장치 및 방법 | |
CN110427626B (zh) | 关键词的提取方法及装置 | |
CN107832374A (zh) | 标准知识库的构建方法、电子装置及存储介质 | |
CN112579604A (zh) | 测试系统的造数方法、装置、设备及存储介质 | |
CN109446217A (zh) | 数据方法、电子装置及计算机可读存储介质 | |
CN109635076A (zh) | 线索管理方法、装置、终端及计算机可读存储介质 | |
CN109344300A (zh) | 自然语言的数据查询意图确定方法、装置和计算机设备 | |
CN114239602A (zh) | 会话方法、装置和计算机程序产品 | |
CN111859985A (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN116244740B (zh) | 一种日志脱敏方法、装置、电子设备及存储介质 | |
CN114942980B (zh) | 一种确定文本匹配方法及装置 | |
CN113077272B (zh) | 通信业务营销案优化方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |