CN111328416A - 用于自然语言处理中的模糊匹配的语音模式 - Google Patents
用于自然语言处理中的模糊匹配的语音模式 Download PDFInfo
- Publication number
- CN111328416A CN111328416A CN201880073075.9A CN201880073075A CN111328416A CN 111328416 A CN111328416 A CN 111328416A CN 201880073075 A CN201880073075 A CN 201880073075A CN 111328416 A CN111328416 A CN 111328416A
- Authority
- CN
- China
- Prior art keywords
- speech
- pattern
- token
- speech pattern
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003058 natural language processing Methods 0.000 title description 23
- 230000015654 memory Effects 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 239000003550 marker Substances 0.000 claims abstract description 20
- 238000013500 data storage Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 82
- 238000000034 method Methods 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 241000227653 Lycopersicon Species 0.000 description 7
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000000835 fiber Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/33—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
从自然语言输入中提取标记。计算与所述标记相对应的语音模式,所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式。从该语音模式的数据中创建新数据,该新数据包括对应于该语音模式的音节序列。通过将新数据存储在对应于该标记的音节序列矩阵中来改变数据存储设备的状态。通过使用处理器和存储器执行模糊匹配算法来选择与所述标记相对应的选项,所述选项的选择基于所述矩阵中的音节序列。
Description
技术领域
本发明一般涉及自然语言处理(NLP),尤其涉及用于自然语言处理中的模糊匹配的语音模式的方法、系统和计算机程序产品。
背景技术
自然语言(NL)是脚本(书面)或发声(口头)语言,具有人用来主要与其他人或与具有自然语言接口的系统通信的形式。
自然语言处理(NLP)是一种便于在人和数据处理系统之间交换信息的技术。例如,NLP的一个分支涉及将人类可读或人类可理解的内容转换成机器可用数据。例如,NLP引擎目前可用于接收诸如报纸文章或人类讲话的输入内容,并从给定内容产生结构化数据,诸如输入内容的概要、最重要和最不重要的部分、主题、引用、内容内的依赖性等。
NL输入是使用自然语言的语法来构造并以合适的形式来呈现的输入,包括但不限于文本、音频及其形式,诸如从音频讲话的转录、来自文本的机器生成的音频。NL输入的一个单元是输入的最短的有意义的部分。例如,在英语中,单元将是单词;而多个单词形成NL输入中的其它更大的结构,例如短语、句子和段落。NL输入的单元在本文中也被称为标记(token)。
目前,算法可用于使机器能够理解NL输入。理解NL输入的至关重要的部分是重复地和可靠地从NL标记的许多可能的机器解释中选择正确的挑选项。例如,机器应该能够推断"tow-mah-tow"和"tuh-may-tow"仅是说"tomato"的不同方式,并且当"tow-mah-tow"作为NL标记被呈现时,该标记的正确选择或挑选项是"tomato"。
说明性实施例认识到,标记的机器理解对许多因素敏感。在一些情况下,对标记或其一部分的强调可能导致对应于标记的不正确的选择。在其它一些情况下,NL输入的方言、口音、所在地影响标记的含义。另外,可能有多个对应于标记的有效挑选项,但是基于所涉及的因素,它们中只有一个是正确的。
示例性实施例所考虑的因素与本文所述的标记的语音变化相关。这样,由说明性实施例所考虑的影响NL标记的机器理解的因素不同于影响正确的标记识别的拼写错误和打字错误类型的原因。目前,存在当在文本NL输入中遇到拼写错误的标记时帮助NLP机器选择正确的挑选项的技术。将若干拼写错误的标记映射到相同的正确的单词(例如,将诸如"“tirminate”、“termate”和“termenate”之类的拼写错误映射到正确的选择-“terminate”),以便在遇到拼写错误的标记时帮助NLP机器作出正确的选择。
一些目前使用的NLP算法构建映射到正确拼写的拼写错误的大型高速缓存。这样的高速缓存可以是大型的,但是它们仍然远不是穷举的。例如,仅对于英语高速缓存而言,单个八字符单词理论上可具有268(208,827,064,576)个可能的变型。这类算法中的一些算法例如通过仅包括最常见的拼写错误来优化高速缓存。然而,映射的高速缓存仍然远未完成,不可扩展,并且仅处理有限类型的问题-文本输入中的拼写错误。
模糊匹配是用于将NL标记映射到一组选择中的选择或挑选项的另一类算法。模糊匹配算法是一种字符串匹配算法,它使用编辑距离算法的变型作为手段,用于查找来自文本输入的给定标记字符串与一组选择中的可用选择字符串之间的相似性。模糊匹配算法也对文本NL输入进行操作,并且目前被配置用于正确理解拼写错误的字符串。
目前,模糊匹配算法被设计成以牺牲精确度(precision)为代价而具有高查全率(recall)。查全率是检索到的相关实例的部分,而精确度是相关的检索到的实例的部分。精确度可以看作是准确度或质量的量度,而查全率是完整性或数量的量度。最大精确度指示没有假阳性,并且最大查全率指示没有假阴性。
发明内容
说明性实施例提供了一种方法、系统和计算机程序产品。实施例包括一种从自然语言(NL)输入中提取标记的方法。该实施例计算与所述标记相对应的语音模式,所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式。该实施例从该语音模式的数据创建新数据,该新数据包括对应于该语音模式的音节序列。该实施例通过将新数据存储在对应于该标记的音节序列矩阵中来改变数据存储设备的状态。该实施例通过使用处理器和存储器执行模糊匹配算法来选择对应于该标记的选项,其中该选择基于矩阵中的音节序列。因此,该实施例通过为选择了所述选项的NL标记选择匹配选项来提高模糊匹配算法的精确度,因为该选项还对应于表示标记的音节序列。
另一实施例还计算对应於该语音模式的第二音节序列。该实施例将第二音节序列保存在矩阵中。因此,该实施例使得能够配置表示标记的多个音节序列。
另一个实施例还确定语音库中的存储的语音模式是否对应于标记。该实施例响应于存储的语音模式对应于标记,选择该存储的语音模式作为语音模式。因此,该实施例使用从标记的先前出现历史地学习的语音模式。
另一个实施例还修改语音库中的对应于第二标记的存储的语音模式以形成语音模式,其中,该第二标记由于与该标记的结构相似性大于阈值程度,从而与该标记相当(comparable)。因此,该实施例使用相当但是不同的标记的语音模式来构造该标记的语音模式。
在另一实施例中,由于在标记的拼写和第二标记的拼写之间存在至少阈值程度的相似性,因此存在结构相似性。因此,该实施例提供了选择相当标记的一种方式。
在另一实施例中,由于在标记的拼写长度和第二标记的拼写长度之间存在至少阈值程度的相似性,因此存在结构相似性。因此,该实施例提供了选择相当标记的另一种方式。
在另一个实施例中,由于在标记中的元音序列与第二标记中的元音序列之间存在至少阈值程度的相似性,因此存在结构相似性。因此,该实施例提供了选择相当标记的另一种方式。因此,该实施例提供了选择相当标记的另一种方式。
在另一个实施例中,声音模式包括语音表示,其中由于在标记中的语音表示的数量和第二标记中的语音表示的数量之间存在至少阈值程度的相似性,因此存在结构相似性。因此,该实施例提供了选择相当标记的另一种方式。
在另一个实施例中,声音模式包括语音表示,其中存在结构相似性,因为在标记中的语音表示的顺序和第二标记中的语音表示的顺序之间存在至少阈值程度的相似性。因此,该实施例提供了选择相当标记的另一种方式。
在另一个实施例中,声音模式包括语音表示,其中由于在对标记中的语音表示的强调与对第二标记中的语音表示的强调之间存在至少阈值程度的相似性,因此存在结构相似性。因此,该实施例提供了选择相当标记的另一种方式。
另一实施例还通过将第二声音模式添加到第二语音模式来从第二语音模式计算语音模式。因此,该实施例提供了一种修改相当标记的语音模式以创建标记的语音模式的方式。
另一实施例还通过从第二语音模式中去除第二声音模式来从第二语音模式计算语音模式。因此,该实施例提供了修改相当标记的语音模式以创建标记的语音模式的另一种方式。
另一实施例还通过用所述声音模式替换第二语音模式中的第二声音模式来从第二语音模式计算语音模式。因此,该实施例提供了修改相当标记的语音模式以创建标记的语音模式的另一种方式。
另一实施例还通过改变第二语音模式中的声音模式的序列来从第二语音模式计算语音模式。因此,该实施例提供了修改相当标记的语音模式以创建标记的语音模式的另一种方式。
另一实施例还通过改变第二声音模式在第二语音模式中的持续时间来从第二语音模式计算语音模式。因此,该实施例提供了修改相当标记的语音模式以创建标记的语音模式的另一种方式。
另一实施例还通过改变对第二语音模式中的第二声音模式的强调来从第二语音模式计算语音模式。因此,该实施例提供了修改相当标记的语音模式以创建标记的语音模式的另一种方式。
另一个实施例还计算与所述标记相对应的一组语音模式,所述语音模式是所述一组语音模式的成员。因此,该实施例提供了多个语音模式可以表示该标记。
在另一个实施例中,声音模式在标记以语言的方言被说出时表示标记的一部分。因此,该实施例提供了多个语音模式可以表示标记,使得语音模式基于通过用方言说话而创建的声音模式。
在另一实施例中,声音模式在标记以语言的口音被说出时表示标记的一部分。因此,该实施例提供了多个语音模式可以表示标记,使得语音模式基于通过用口音说话而创建的声音模式。
在另一个实施例中,所述声音模式在标记以具有说话者的讲话特性的语言被说出时表示标记的一部分。因此,该实施例提供了多个语音模式可以表示标记,使得语音模式基于由说话者的说话相关的特质而创建的声音模式。
在另一个实施例中,所述标记包括NL输入中的最短的有意义的讲话单元。因此,该实施例提供了可以形成标记的特定类型的语言构造。
实施例包括计算机可用程序产品。计算机可用程序产品包括计算机可读存储设备和存储在存储设备上的程序指令。
实施例包括计算机系统。该计算机系统包括处理器、计算机可读存储器、和计算机可读存储设备以及存储在存储设备上以供处理器经由存储器执行的程序指令。
说明性实施例认识到,文本输入中的除了拼写错误之外的因素对精确理解NL标记负责。这些因素取决于标记的音调或语音特征,而不是标记的文本拼写的正确性或不正确性。
说明性实施例认识到需要一种方法,通过该方法,标记的语音变化可以在NLP中表示,使得在进行对应于NL输入的选择时保持查全率特征不变,并且模糊匹配应用精确度提高。说明性实施例认识到,需要修改当前可用的模糊匹配算法,以便能够在确定对应于标记的正确选择时使用标记的语音特征作为附加输入。
附图说明
在所附权利要求中阐述了被认为是本发明的特性的某些新的特征。然而,通过参考以下结合附图对说明性实施例的详细描述,将最好地理解本发明本身及其优选使用模式、进一步的目的和优点,其中:
图1描述了可以实现说明性实施例的数据处理系统的网络的框图;
图2描绘了可以实现说明性实施例的数据处理系统的框图;
图3描绘了根据说明性实施例的用于自然语言处理中的模糊匹配的语音模式的示例配置的框图;
图4描绘了根据说明性实施例的用于自然语言处理中的模糊匹配的语音模式的示例应用的框图;
图5描绘了根据说明性实施例的用于自然语言处理中的模糊匹配的语音模式的示例处理的流程图;以及
图6描绘了根据说明性实施例的用于机器学习以改进NL标记的语音模式选择的示例处理的流程图。
具体实施方式
说明性实施例认识到,目前可用的工具或解决方案没有处理这些需要/问题或提供用于这些需要/问题的适当解决方案。用于描述本发明的说明性实施例一般地通过用于自然语言处理中的模糊匹配的语音模式来处理和解决上述问题和其它相关问题。
实施例可以被实现为软件应用。实现实施例的应用或其一个或多个组件可被配置为实现模糊匹配算法的现有应用(模糊匹配应用)的修改(即模糊匹配应用中的本机应用)、配置为在通过诸如蓝牙的短距离无线电网络、通过有线或有线局域网(LAN)与现有模糊匹配应用通信的数据处理系统中执行的应用(即LAN上的本地应用)、配置为为在通过广域网(WAN)与现有模糊匹配应用通信的数据处理系统中执行的应用(即WAN上的远程应用)、配置为以其它方式与现有模糊匹配应用结合操作的单独应用、独立应用或它们的某种组合。
在说明性实施例的范围内,语音表示是在标记被说出时表示NL标记的全部或一部分的声音模式。音节是字音构建块,即,在给定语言的讲话中使用的声音,其可以使用该语言的一个或多个元音来表示。
根据说明性实施例,从NL输入中提取标记。该实施例确定一起形成语音模式的一个或多个不同的语音表示(不同的语音声音),并且该语音模式表示该标记。例如,表示示例标记"tomato"的一种方式是其中"tow"、"mah"和"tow"形成三个语音表示的集合,这三个语音表示一起形成表示标记"tomato"的语音模式"tow-mah-tow"。表示示例标记"tomato"的另一示例方式是其中"tuh"、"may"和"tow"形成三个语音表示的不同集合,这三个语音表示一起形成第二语音模式"tuh-may-tow",其也表示标记"tomato"。
换句话说,给定标记,该实施例使用相应的语音表示集合来构造一个或多个语音模式,使得这些语音模式中的任意语音模式都可能代表该给定标记。
实施例将标记的语音模式存储在库(语音库)中。随着时间的推移,在不同环境下遇到若干标记和同一标记的若干实例时,语音库变得填充有对应于一个或多个标记的一个或多个语音模式。
在一个实施例中,给定标记,对应于该标记的一组语音模式在语音库中可用。当该标记的语音模式在该库中可用时,该语音模式被提取到该标记的语音模式组中。
在另一个实施例中,在其语音结构上与给定的标记相当或相似的不同标记的语音模式可以在该库中可用。实施例从相当标记的语音模式计算该标记的语音模式。
例如,“tomato”的语音模式可能不可用,但是"potato"的语音模式可能在库中可用。实施例通过对两个标记比较拼写、拼写长度、其中元音的排列、其中语音表示的数量、其中语音表示的顺序、对特定语音表示的强调、或这些和其它这种特征的某种组合,来确定给定标记和相当标记之间的结构相似性。当给定的标记和相当标记之间的结构相似性超过相似性的阈值水平时,该实施例使用来自库的相当标记的语音模式,并且根据该语音模式计算给定的标记的语音模式。
在一个实施例中,给定标记的语音模式的计算可以包括:将语音表示添加到相当标记的语音模式中;从相当标记的语音模式中删除语音表示;用不同的语音表示替换相当标记的语音模式中的语音表示;改变相当标记的语音模式中的语音表示的序列;压缩说出或发声相当标记的语音模式的持续时间;延长说出或发声相当标记的语音模式的持续时间;向相当标记的语音模式中的语音表示添加强调;从相当标记的语音模式中的语音表示中去除强调;将强调从相当标记的语音模式中的一个语音表示改变为不同语音表示;以及根据语言、方言、口音、上下文、说话者的特性等组合这些和许多其它方面。
不管NL输入以何种形式提供,例如文本、音频或本文所述的其它形式,实施例都可使用来自库的标记的语音模式和来自库的相当标记的语音模式来构造对应于该标记的语音模式组。当从音频形式的NL输入中提取标记时,还可通过将标记的音频分割为组成语音表示来构造标记的语音模式。
一旦语音模式可用于标记,则实施例计算对应于该语音模式中的每个语音表示的音节。因此,该实施例将语音模式转换成音节序列。将语音表示转换成音节可以通过将语音表示中存在的声音与通过发出音节而发出的声音进行匹配来执行。例如,语音模式“tow-mah-tow”包括声音序列“oh”“ah”(ɑ:)、和“oh”因此,对应于该标记的语音模式的音节序列是“ɑ:”。
以这种方式操作,该实施例为对应于标记的每个语音模式构建音节序列。对于单个语音模式,多于一个音节序列是可能的。这样创建的音节序列组形成音节序列矩阵。
实施例修改现有的模糊匹配应用以将音节序列矩阵与NL输入一起接受为支持输入。修改的模糊匹配应用在模糊匹配算法中使用矩阵中的音节序列来识别与标记相对应的适当选择。使用音节序列标识的选择比仅使用现有技术的模糊匹配算法而不使用音节序列标识的选择表现出更高的精确度。
在本文中描述的用于自然语言处理中的模糊匹配的语音模式的方式在目前可用的方法中是不可用的。本文描述的实施例的方法,当被实现为在设备或数据处理系统上执行时,包括在不干扰NLP技术领域中的模糊匹配应用的查全率特性的情况下,在提高模糊匹配应用的精确度方面的该设备或数据处理系统的功能的实质进步。
仅作为示例,关于NL、NL输入、语法、标记、语音表示、语音模式、音节、音节序列、矩阵、模糊匹配算法、模糊匹配应用、设备、数据处理系统、环境、组件和应用的特定类型描述了说明性实施例。这些和其它类似的产物的任何特定表现形式不是要限制本发明。可以在说明性实施例的范围内选择这些和其它类似产物的任何适当表现。
此外,可以针对任何类型的数据、数据源或通过数据网络对数据源的访问来实现说明性实施例。在本发明的范围内,任何类型的数据存储设备可以在本地在数据处理系统处或通过数据网络向本发明的实施例提供数据。在使用移动设备描述实施例的情况下,在说明性实施例的范围内,适于与移动设备一起使用的任何类型的数据存储设备可以在本地在移动设备处或者通过数据网络向这样的实施例提供数据。
使用特定代码、设计、架构、协议、布局、示意图和工具来描述说明性实施例,这些仅作为示例,而不是对说明性实施例的限制。此外,为了描述的清楚,仅作为示例,在一些实例中使用特定软件、工具和数据处理环境来描述说明性实施例。说明性实施例可以结合其他相当或类似目的结构、系统、应用或架构来使用。例如,在本发明的范围内,其他相当的移动设备、结构、系统、应用或其架构可以与本发明的这种实施例结合使用。说明性实施例可以以硬件、软件或其组合来实现。
本公开中的示例仅用于清楚描述,而不是限制于说明性实施例。从本公开可以想到附加的数据、操作、动作、任务、活动和操纵,并且在说明性实施例的范围内可以设想这些附加的数据、操作、动作、任务、活动和操纵。
本文列出的任何优点仅是示例,并且不旨在限制说明性实施例。通过特定的说明性实施例可以实现附加的或不同的优点。此外,特定说明性实施例可具有上文所列优点中的一些、全部或不具有上文所列优点。
参考附图,并且具体参考图1和2,这些附图是可以实现说明性实施例的数据处理环境的示例图。图1和2仅仅是示例,并且不旨在断言或暗示关于其中可以实现不同实施例的环境的任何限制。特定实现可以基于以下描述对所描绘的环境进行许多修改。
图1描述了可以实现说明性实施例的数据处理系统的网络的框图。数据处理环境100是可以实现说明性实施例的计算机的网络。数据处理环境100包括网络102。网络102是用于在数据处理环境100内连接在一起的各种设备和计算机之间提供通信链路的介质。网络102可以包括诸如有线、无线通信链路或光纤电缆的连接。
客户端或服务器仅是连接到网络102的某些数据处理系统的示例角色,并且不旨在排除这些数据处理系统的其他配置或角色。服务器104和服务器106连同存储单元108一起耦合到网络102。软件应用可以在数据处理环境100中的任何计算机上执行。客户端110、112和114也耦合到网络102。诸如服务器104或106或客户端110、112或114的数据处理系统可以包含数据,并且可以具有在其上执行的软件应用或软件工具。
仅作为示例,而不暗示对这样的架构的任何限制,图1描绘了可在实施例的示例实现中使用的某些组件。例如,服务器104和106以及客户端110、112、114仅作为示例被描绘为服务器和客户端,并不暗示对客户端-服务器架构的限制。作为另一个例子,实施例可以分布在如图所示的几个数据处理系统和数据网络上,而另一个实施例可以在说明性实施例的范围内在单个数据处理系统上实现。数据处理系统104、106、110、112和114还表示适于实现实施例的集群、分区和其它配置中的示例节点。
设备132是本文描述的设备的示例。例如,设备132可以采取智能电话、平板计算机、膝上型计算机、固定或便携式形式的客户端110、可穿戴计算设备或任何其他合适的设备的形式。被描述为在图1中的另一数据处理系统中执行的任何软件应用可以被配置为以类似的方式在设备132中执行。在图1中的另一数据处理系统中存储或产生的任何数据或信息可以被配置为以类似的方式在设备132中存储或产生。
应用105实现本文描述的实施例。模糊匹配应用107是包括修改的模糊匹配算法的修改的模糊匹配应用,其中修改的模糊匹配算法已被修改以接受音节序列矩阵作为附加输入,用于标识与NL输入中的标记相对应的正确选择。语音库109包括用于一种或多种语言中的一个或多个标记的一个或多个语音模式,如本文所述。
服务器104和106、存储单元108、客户端110、112和114以及设备132可以使用有线连接、无线通信协议或其他合适的数据连接耦合到网络102。客户端110、112和114可以是例如个人计算机或网络计算机。
在所描述的示例中,服务器104可以向客户端110、112和114提供数据,例如启动文件、操作系统映像和应用。在该示例中,客户端110、112和114可以是服务器104的客户端。客户端110、112、114或其某种组合可以包括它们自己的数据、启动文件、操作系统映像和应用。数据处理环境100可以包括未示出的附加服务器、客户端和其他设备。
在所描述的示例中,数据处理环境100可以是因特网。网络102可以表示使用传输控制协议/英特网协议(TCP/IP)和其它协议来彼此通信的网络和网关的集合。在因特网的核心是主节点或主机计算机之间的数据通信链路的主干,包括路由数据和消息的数千个商业、政府、教育和其它计算机系统。当然,数据处理环境100也可以实现为许多不同类型的网络,例如内联网、局域网(LAN)或广域网(WAN)。图1旨在作为示例,而不是作为对不同说明性实施例的架构限制。
除了其他用途之外,数据处理环境100可以用于实现其中可以实现示例性实施例的客户端-服务器环境。客户端-服务器环境使得软件应用和数据能够分布在网络上,以便应用通过使用客户端数据处理系统和服务器数据处理系统之间的交互性来发挥功能。数据处理环境100还可以采用面向服务的架构,其中分布在网络上的可互操作的软件组件可以被打包在一起作为一致的业务应用。数据处理环境100还可以采取云的形式,并且采用服务递送的云计算模型以实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储设备、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。
参考图2,该图描述了可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机的示例,例如图1中的服务器104和106、或客户端110、112和114、或另一类型的设备,其中可以为示例性实施例提供实现处理的计算机可用程序代码或指令。
数据处理系统200还代表数据处理系统或其中的配置,例如图1中的数据处理系统132,其中可以提供实现示例性实施例的处理的计算机可用程序代码或指令。数据处理系统200仅作为示例被描述为计算机,而不限于此。在不脱离本文描述的数据处理系统200的操作和功能的一般描述的情况下,以诸如图1中的设备132的其他设备的形式的实现可以诸如通过添加触摸接口来修改数据处理系统200,并且甚至从数据处理系统200中去除某些描绘的组件。
在所描述的例子中,数据处理系统200采用集线器架构,包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210耦合到北桥和存储器控制器集线器(NB/MCH)202。处理单元206可以包含一个或多个处理器,并且可以使用一个或多个异构处理器系统来实现。处理单元206可以是多核处理器。在某些实现中,图形处理器210可以通过加速图形端口(AGP)耦合到NB/MCH202。
在所描述的例子中,局域网(LAN)适配器212耦合到南桥和I/O控制器集线器(SB/ICH)204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其它端口232、以及PCI/PCIe设备234通过总线238耦合到南桥和I/O控制器集线器204。硬盘驱动器(HDD)或固态驱动器(SSD)226和CD-ROM230通过总线240耦合到南桥和I/O控制器集线器204。PCI/PCIe设备234可以包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。ROM224可以是例如闪存二进制输入/输出系统(BIOS)。硬盘驱动器226和CD-ROM230可使用例如集成驱动电子(IDE)、串行高级技术附件(SATA)接口或诸如外部SATA(eSATA)和微SATA(mSATA)的变体。超级I/O(SIO)设备236可以通过总线238耦合到南桥和I/O控制器集线器(SB/ICH)204。
存储器,例如主存储器208、ROM224或闪存(未示出),是计算机可用存储设备的一些示例。硬盘驱动器或固态驱动器226、CD-ROM230和其它类似可用的设备是包括计算机可用存储介质的计算机可用存储设备的一些示例。
操作系统在处理单元206上运行。操作系统协调并提供对图2中的数据处理系统200内的各种组件的控制。操作系统可以是用于任何类型的计算平台的商业上可获得的操作系统,包括但不限于服务器系统、个人计算机和移动设备。面向对象或其它类型的编程系统可以与操作系统一起操作,并且提供从在数据处理系统200上执行的程序或应用对操作系统的调用。
用于操作系统、面向对象的编程系统以及应用或程序(例如图1中的应用105和/或修改的模糊匹配应用107)的指令例如以硬盘驱动器226上的代码226A的形式位于存储设备上,并且可以被加载到一个或多个存储器(例如主存储器208)中的至少一个中,以便由处理单元206执行。说明性实施例的处理可以由处理单元206使用计算机实现的指令来执行,所述指令可以位于存储器中,例如主存储器208、只读存储器224,或者位于一个或多个外围设备中。
此外,在一种情况下,代码226A可以通过网络201A从远程系统201B下载,在远程系统201B中,类似的代码201C存储在存储设备201D上。在另一种情况下,代码226A可以通过网络201A下载到远程系统201B,其中下载的代码201C存储在存储设备201D上。
图1-2中的硬件可以根据实现而变化。除了图1-2中描述的硬件之外,或者代替这些硬件,可以使用其它内部硬件或外围设备,例如闪存、等效的非易失性存储器或光盘驱动器等。此外,示例性实施例的处理可以应用于多处理器数据处理系统。
在一些说明性示例中,数据处理系统200可以是个人数字助理(PDA),其通常配置有闪存以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。总线系统可以包括一个或多个总线,例如系统总线、I/O总线和PCI总线。当然,总线系统可以使用任何类型的通信结构或架构来实现,所述通信结构或架构提供在附接到该结构或架构的不同组件或设备之间的数据的传输。
通信单元可以包括用于发送和接收数据的一个或多个设备,例如调制解调器或网络适配器。存储器可以是例如主存储器208或高速缓存,诸如在北桥和存储器控制器集线器202中找到的高速缓存。处理单元可以包括一个或多个处理器或CPU。
图1-2中所描述的示例和上述示例不意味着暗示架构上的限制。例如,数据处理系统200除了采取移动或可穿戴设备的形式之外,还可以是平板计算机、膝上型计算机或电话设备。
在计算机或数据处理系统被描述为虚拟机、虚拟设备或虚拟组件的情况下,虚拟机、虚拟设备或虚拟组件使用数据处理系统200中所描绘的一些或所有组件的虚拟化表现来以数据处理系统200的方式操作。例如,在虚拟机、虚拟设备或虚拟组件中,处理单元206被表现为主机数据处理系统中可用的所有或一些硬件处理单元206的虚拟化实例,主存储器208被表现为主机数据处理系统中可用的主存储器208的所有或一些部分的虚拟化实例,并且盘226被表现为主机数据处理系统中可用的盘226的所有或一些部分的虚拟化实例。在这种情况下,主机数据处理系统由数据处理系统200表示。
参考图3,该图描述了根据说明性实施例的用于自然语言处理中的模糊匹配的语音模式的示例配置的框图。应用302是图1中的应用105的示例。模糊匹配应用304是图1中的修改的模糊匹配应用107的示例。模糊匹配应用304包括现有技术的模糊匹配算法304A和根据实施例的语音输入处理组件304B。语音库306是图1中的语音库109的示例。
NL输入308包括如本文所述的NL数据的一种或多种形式。NL输入308包括一个或多个标记,例如单词。
应用302适当地解析NL输入308以从NL输入308中提取标记。如果可用的话,使用来自语音库306的一个或多个语音模式和/或来自NL输入308的音频数据,应用302构造与标记相对应的一个或多个语音模式。应用302计算对应于每个语音模式的一个或多个音节序列,并且形成音节序列矩阵310。音节序列,例如矩阵310中的音节序列312,包括一个或多个音节(诸如音节312A、312B…312C)的序列。
语音输入处理组件304B接收NL输入308作为一个输入,并从应用302接收矩阵310作为附加输入。组件304B使模糊匹配算法304A在对应于给定标记的选择/挑选标识处理中使用音节序列。与仅从模糊匹配算法304A输出的选择相比,模糊匹配应用304以更高的精确度和至少相同的查全率输出选择314。
在一个实施例中,修改的模糊匹配应用304的选择输出用于训练应用302。例如,如果单独的处理(未示出)确定选择314是给定标记的可能的选择,则机器学习反馈316使应用302在阈值程度的对应性内增加或加强与选择314相对应的那些语音模式,使得在标记的后续出现中对于相同或相似的标记再次产生那些语音模式(或给予那些语音模式相对更大的权重)。如果构造了在阈值程度的对应性内不对应于选择314的语音模式,则反馈316使应用302减少或弱化这些语音模式,以使得不会在标记的后续出现中为相同或相似的标记产生那些语音模式(或对那些语音模式给予相对较小的权重)。
参考图4,该图描述了根据说明性实施例的用于自然语言处理中的模糊匹配的语音模式的示例应用的框图。应用402可以用作图3中的应用302。
组件404例如通过根据输入308的语言的语法来解析NL输入308,来从NL输入中提取标记。组件406以本文所述的任何一种或多种方式计算标记的语音模式。
组件408计算对应于语音模式的音节序列。组件408输出对应于标记的音节序列矩阵,例如矩阵310。
组件410可以被配置成作为图3中的语音输入处理组件304B来操作。组件410处理音节序列矩阵以在修改的模糊匹配应用中使用,例如在模糊匹配应用304中使用。
组件412接收由修改的模糊匹配应用作出的选择的反馈,例如反馈316。组件414实现用于将选择分类为可能(NL输入308的上下文中的有效选择)或不可能(NL输入308的上下文中的无效选择)的合适处理。
组件416加强了与可能的选择相对应的标记的那些语音模式。组件418弱化了与不可能的选择相对应的标记的那些语音模式。组件420例如通过添加新的语音模式、加强语音模式、弱化语音模式、去除语音模式、或以其它方式操纵库中的语音模式来管理语音库。
参考图5,该图描述了根据说明性实施例的用于自然语言处理中的模糊匹配的语音模式的示例处理的流程图。处理500可以在图4中的应用402中实现。
应用接收NL输入(框502)。应用从输入中选择讲话单元,即标记(框504)。对于所选择的标记,应用执行框506、508和510中的一个或多个。例如,应用确定在语音库中是否存在用于该标记的语音模式(框506);应用确定在库中是否存在相当标记的语音模式(框508);和/或应用基于NL输入中的标记的实际的或估计的音频来计算标记的语音模式(框510)。如果/当应用执行框510以基于NL输入中的标记的实际的或估计的音频来计算标记的语音模式时,应用用计算出的语音模式更新语音库(框512)。
如果在库中存在标记的语音模式(框506的"是"路径),则应用计算对应于该语音模式的一个或多个音节序列(框514)。如果在库中不存在该标记的语音模式(框506的"否"路径),则应用前进到框508。
如果在库中存在相当标记的语音模式(框508的"是"路径),则应用基于相当标记的语音模式来计算该标记的语音模式(框516)。在框512,应用用针对该标记计算出的语音模式更新库。
应用确定是否需要以类似的方式计算标记的更多语音模式(框518)。如果需要计算标记的更多语音模式(框518的"是"路径),则应用返回到框506、508和510中的任何一个。如果针对该标记不需要计算更多语音模式(框518的"否"路径),则应用生成所计算的音节序列的矩阵(框520)。可选地,应用可预处理矩阵以便作为修改的模糊匹配应用的附加输入来使用(框522)。
应用将该矩阵作为附加输入提供给修改的模糊匹配应用(框524)。应用使修改的模糊匹配应用以提高的精确度输出与标记相对应的选择(框526)。此后,应用可结束处理500。
如果对于该标记不需要计算更多语音模式(框518的"否"路径),则应用还可以并行地确定是否需要从NL输入中处理更多的标记(框528)。如果需要从NL输入中处理更多的标记(框528的"是"路径),则应用返回到框504并选择另一标记。如果不需要从NL输入中处理更多的标记(框528的"否"路径),则应用此后结束处理500。
参考图6,该图描绘了根据说明性实施例的用于机器学习以改进NL标记的语音模式选择的示例处理的流程图。处理600可以在图4中的应用402中实现。
应用接收由修改的模糊匹配应用做出的对应于标记的选择(框602)。应用确定在给定NL输入上下文时该选择是否可能(框604)。如果该选择是可能的(框604的"可能"路径),则应用加强与选择相对应的标记的那些语音模式(框606)。此后,应用结束处理600。
如果选择是不可能的(框604的"不可能"路径),则应用弱化与选择相对应的标记的那些语音模式(框608)。此后,应用结束处理600。
因此,在说明性实施例中提供了一种计算机实现的方法、系统或装置以及计算机程序产品,用于自然语言处理中的模糊匹配的语音模式和其他相关特征、功能或操作。在关于一种类型的设备描述实施例或其一部分的情况下,计算机实现的方法、系统或装置、计算机程序产品或其一部分被适配或配置成与该类型的设备的适当且相当的表现一起使用。
在实施例被描述为在应用中实现的情况下,在说明性实施例的范围内,可以设想在软件即服务(SaaS)模型中的应用的递送。在SaaS模型中,通过在云基础设施中执行应用,向用户提供实现实施例的应用的能力。用户可以通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口或其他轻量客户端应用,使用各种客户端设备来访问应用。用户不管理或控制底层云基础设施,包括网络、服务器、操作系统或云基础设施的存储设备。在一些情况下,用户甚至可能不管理或控制SaaS应用的能力。在其它一些情况下,应用的SaaS实现可允许有限的用户特定应用配置设定的可能例外。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。计算机可读存储介质包括并不限于这里所使用的计算机可读存储设备,不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (25)
1.一种方法,包括:
从自然语言(NL)输入中提取标记;
计算与所述标记相对应的语音模式,所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式;
从所述语音模式的数据中创建新数据,所述新数据包括与所述语音模式相对应的音节序列;
通过将所述新数据存储在与所述标记相对应的音节序列矩阵中来改变数据存储设备的状态;
通过使用处理器和存储器执行模糊匹配算法来选择与所述标记相对应的选项,其中所述选择基于所述矩阵中的音节序列。
2.根据权利要求1所述的方法,还包括:
计算与所述语音模式相对应的第二音节序列;以及
将所述第二音节序列存入所述矩阵中。
3.根据权利要求1所述的方法,还包括:
确定语音库中的存储的语音模式是否与所述标记相对应;
响应于所述存储的语音模式与所述标记相对应,选择所述存储的语音模式作为所述语音模式。
4.根据权利要求1所述的方法,还包括:
修改语音库中的与第二标记相对应的存储的语音模式以形成所述语音模式,其中,所述第二标记由于与所述标记的结构相似性大于阈值程度而与所述标记相当。
5.根据权利要求4所述的方法,其中,由于在所述标记的拼写和所述第二标记的拼写之间存在至少阈值程度的相似性,因此存在所述结构相似性。
6.根据权利要求4所述的方法,其中,由于在所述标记的拼写长度和所述第二标记的拼写长度之间存在至少阈值程度的相似性,因此存在所述结构相似性。
7.根据权利要求4所述的方法,其中,由于在所述标记中的元音序列与所述第二标记中的元音序列之间存在至少阈值程度的相似性,因此存在所述结构相似性。
8.根据权利要求4所述的方法,其中,所述声音模式包括语音表示,其中,由于在所述标记中的语音表示的数量和所述第二标记中的语音表示的数量之间存在至少阈值程度的相似性,因此存在所述结构相似性。
9.根据权利要求4所述的方法,其中,所述声音模式包括语音表示,其中,由于在所述标记中的语音表示的顺序和所述第二标记中的语音表示的顺序之间存在至少阈值程度的相似性,因此存在所述结构相似性。
10.根据权利要求4所述的方法,其中,所述声音模式包括语音表示,其中,由于在对所述标记中的所述语音表示的强调与对所述第二标记中的所述语音表示的强调之间存在至少阈值程度的相似性,因此存在所述结构相似性。
11.根据权利要求1所述的方法,还包括:
通过将第二声音模式添加到第二语音模式来从所述第二语音模式计算所述语音模式。
12.根据权利要求1所述的方法,还包括:
通过从第二语音模式中去除第二声音模式来从所述第二语音模式计算所述语音模式。
13.根据权利要求1所述的方法,还包括:
通过用所述声音模式替换第二语音模式中的第二声音模式来从所述第二语音模式计算所述语音模式。
14.根据权利要求1所述的方法,还包括:
通过改变第二语音模式中的声音模式的序列来从所述第二语音模式计算所述语音模式。
15.根据权利要求1所述的方法,还包括:
通过改变第二声音模式在第二语音模式中的持续时间来从所述第二语音模式计算所述语音模式。
16.根据权利要求1所述的方法,还包括:
通过改变对第二语音模式中的第二声音模式的强调来从所述第二语音模式计算所述语音模式。
17.根据权利要求1所述的方法,还包括:
计算与所述标记相对应的一组语音模式,所述语音模式是所述一组语音模式的成员。
18.根据权利要求1所述的方法,其中,所述声音模式在所述标记以语言的方言被说出时表示所述标记的所述一部分。
19.根据权利要求1所述的方法,其中,所述声音模式在所述标记以语言的口音被说出时表示所述标记的所述一部分。
20.如权利要求1所述的方法,其中,所述声音模式在所述标记以具有说话者的讲话特性的语言被说出时表示所述标记的所述一部分。
21.如权利要求1所述的方法,其中,所述标记包括NL输入中的最短的有意义的讲话单元。
22.一种计算机可用程序产品,包括计算机可读存储设备和存储在所述存储设备上的程序指令,所存储的程序指令包括:
用于从自然语言(NL)输入中提取标记的程序指令;
用于计算与所述标记相对应的语音模式的程序指令,所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式;
用于从所述语音模式的数据中创建新数据的程序指令,所述新数据包括与所述语音模式相对应的音节序列;
用于通过将所述新数据存储在与所述标记相对应的音节序列矩阵中来改变数据存储设备的状态的程序指令;
用于通过使用处理器和存储器执行模糊匹配算法来选择与所述标记相对应的选项的程序指令,其中所述选择基于所述矩阵中的音节序列。
23.如权利要求22所述的计算机可用程序产品,其中,所述计算机可用代码存储在数据处理系统中的计算机可读存储设备中,并且其中,所述计算机可用代码通过网络从远程数据处理系统传送。
24.如权利要求22所述的计算机可用程序产品,其中,所述计算机可用代码存储在服务器数据处理系统中的计算机可读存储设备中,并且其中,所述计算机可用代码通过网络下载到远程数据处理系统,以便在与所述远程数据处理系统相关联的计算机可读存储设备中使用。
25.一种计算机系统,包括处理器、计算机可读存储器和计算机可读存储设备以及存储在所述存储设备上的程序指令,所述程序指令用于由所述处理器经由所述存储器执行以执行根据权利要求1至21中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/813,416 | 2017-11-15 | ||
US15/813,416 US10546062B2 (en) | 2017-11-15 | 2017-11-15 | Phonetic patterns for fuzzy matching in natural language processing |
PCT/IB2018/058521 WO2019097335A1 (en) | 2017-11-15 | 2018-10-31 | Phonetic patterns for fuzzy matching in natural language processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111328416A true CN111328416A (zh) | 2020-06-23 |
CN111328416B CN111328416B (zh) | 2023-11-17 |
Family
ID=66433281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880073075.9A Active CN111328416B (zh) | 2017-11-15 | 2018-10-31 | 用于自然语言处理中的模糊匹配的语音模式 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10546062B2 (zh) |
JP (1) | JP7135084B2 (zh) |
CN (1) | CN111328416B (zh) |
DE (1) | DE112018005844B4 (zh) |
GB (1) | GB2585492B (zh) |
WO (1) | WO2019097335A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10546062B2 (en) * | 2017-11-15 | 2020-01-28 | International Business Machines Corporation | Phonetic patterns for fuzzy matching in natural language processing |
US11568142B2 (en) * | 2018-06-04 | 2023-01-31 | Infosys Limited | Extraction of tokens and relationship between tokens from documents to form an entity relationship map |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030125945A1 (en) * | 2001-12-14 | 2003-07-03 | Sean Doyle | Automatically improving a voice recognition system |
US20050182558A1 (en) * | 2002-04-12 | 2005-08-18 | Mitsubishi Denki Kabushiki Kaisha | Car navigation system and speech recognizing device therefor |
CN1748245A (zh) * | 2003-02-13 | 2006-03-15 | 西门子公司 | 三级单个单词识别 |
US20090030680A1 (en) * | 2007-07-23 | 2009-01-29 | Jonathan Joseph Mamou | Method and System of Indexing Speech Data |
CN101533398A (zh) * | 2008-03-16 | 2009-09-16 | 徐文新 | 模式匹配索引查找方法 |
US8521539B1 (en) * | 2012-03-26 | 2013-08-27 | Nuance Communications, Inc. | Method for chinese point-of-interest search |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794194A (en) * | 1989-11-28 | 1998-08-11 | Kabushiki Kaisha Toshiba | Word spotting in a variable noise level environment |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
JP2001100776A (ja) * | 1999-09-30 | 2001-04-13 | Arcadia:Kk | 音声合成装置 |
US8392188B1 (en) * | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US7177795B1 (en) * | 1999-11-10 | 2007-02-13 | International Business Machines Corporation | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US20050228661A1 (en) * | 2002-05-06 | 2005-10-13 | Josep Prous Blancafort | Voice recognition method |
US20060064177A1 (en) * | 2004-09-17 | 2006-03-23 | Nokia Corporation | System and method for measuring confusion among words in an adaptive speech recognition system |
WO2007027989A2 (en) | 2005-08-31 | 2007-03-08 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US8626506B2 (en) * | 2006-01-20 | 2014-01-07 | General Motors Llc | Method and system for dynamic nametag scoring |
WO2008084476A2 (en) | 2007-01-09 | 2008-07-17 | Avraham Shpigel | Vowel recognition system and method in speech to text applications |
JP4973731B2 (ja) * | 2007-07-09 | 2012-07-11 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
US9405823B2 (en) * | 2007-07-23 | 2016-08-02 | Nuance Communications, Inc. | Spoken document retrieval using multiple speech transcription indices |
US20090037403A1 (en) | 2007-07-31 | 2009-02-05 | Microsoft Corporation | Generalized location identification |
US8775441B2 (en) * | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US20110106792A1 (en) | 2009-11-05 | 2011-05-05 | I2 Limited | System and method for word matching and indexing |
EP2509005A1 (en) * | 2009-12-04 | 2012-10-10 | Sony Corporation | Search device, search method, and program |
US8914385B2 (en) * | 2010-02-24 | 2014-12-16 | Mitsubishi Electric Corporation | Search device and search program |
US9418152B2 (en) * | 2011-02-09 | 2016-08-16 | Nice-Systems Ltd. | System and method for flexible speech to text search mechanism |
KR101231438B1 (ko) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법 |
US9164983B2 (en) | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN103970798B (zh) * | 2013-02-04 | 2019-05-28 | 商业对象软件有限公司 | 数据的搜索和匹配 |
US9652511B2 (en) | 2013-03-13 | 2017-05-16 | International Business Machines Corporation | Secure matching supporting fuzzy data |
US9594742B2 (en) * | 2013-09-05 | 2017-03-14 | Acxiom Corporation | Method and apparatus for matching misspellings caused by phonetic variations |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US9135911B2 (en) | 2014-02-07 | 2015-09-15 | NexGen Flight LLC | Automated generation of phonemic lexicon for voice activated cockpit management systems |
JP6400936B2 (ja) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
CN105632499B (zh) * | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN104464736B (zh) | 2014-12-15 | 2018-02-02 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
GB2533370A (en) | 2014-12-18 | 2016-06-22 | Ibm | Orthographic error correction using phonetic transcription |
EP3353679A4 (en) * | 2015-09-22 | 2019-05-22 | Nuance Communications, Inc. | SYSTEMS AND METHOD FOR DETECTING INTEREST POINTS |
US10546062B2 (en) * | 2017-11-15 | 2020-01-28 | International Business Machines Corporation | Phonetic patterns for fuzzy matching in natural language processing |
-
2017
- 2017-11-15 US US15/813,416 patent/US10546062B2/en active Active
-
2018
- 2018-10-31 GB GB2008024.8A patent/GB2585492B/en active Active
- 2018-10-31 WO PCT/IB2018/058521 patent/WO2019097335A1/en active Application Filing
- 2018-10-31 DE DE112018005844.1T patent/DE112018005844B4/de active Active
- 2018-10-31 JP JP2020524106A patent/JP7135084B2/ja active Active
- 2018-10-31 CN CN201880073075.9A patent/CN111328416B/zh active Active
-
2019
- 2019-11-26 US US16/696,098 patent/US11397856B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030125945A1 (en) * | 2001-12-14 | 2003-07-03 | Sean Doyle | Automatically improving a voice recognition system |
US20050182558A1 (en) * | 2002-04-12 | 2005-08-18 | Mitsubishi Denki Kabushiki Kaisha | Car navigation system and speech recognizing device therefor |
CN1748245A (zh) * | 2003-02-13 | 2006-03-15 | 西门子公司 | 三级单个单词识别 |
US20090030680A1 (en) * | 2007-07-23 | 2009-01-29 | Jonathan Joseph Mamou | Method and System of Indexing Speech Data |
CN101533398A (zh) * | 2008-03-16 | 2009-09-16 | 徐文新 | 模式匹配索引查找方法 |
US8521539B1 (en) * | 2012-03-26 | 2013-08-27 | Nuance Communications, Inc. | Method for chinese point-of-interest search |
Also Published As
Publication number | Publication date |
---|---|
GB2585492A (en) | 2021-01-13 |
GB2585492B (en) | 2021-03-17 |
WO2019097335A1 (en) | 2019-05-23 |
DE112018005844B4 (de) | 2021-11-25 |
CN111328416B (zh) | 2023-11-17 |
DE112018005844T5 (de) | 2020-08-13 |
JP7135084B2 (ja) | 2022-09-12 |
JP2021503097A (ja) | 2021-02-04 |
US10546062B2 (en) | 2020-01-28 |
US11397856B2 (en) | 2022-07-26 |
GB202008024D0 (en) | 2020-07-15 |
US20200097540A1 (en) | 2020-03-26 |
US20190147036A1 (en) | 2019-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
US10698932B2 (en) | Method and apparatus for parsing query based on artificial intelligence, and storage medium | |
JP7398402B2 (ja) | 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
US11574133B2 (en) | Method, electronic device, and storage medium for training text generation model | |
US10832658B2 (en) | Quantized dialog language model for dialog systems | |
US8744834B2 (en) | Optimizing parameters for machine translation | |
CN111859994B (zh) | 机器翻译模型获取及文本翻译方法、装置及存储介质 | |
CN110264991A (zh) | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN107112009B (zh) | 用于生成混淆网络的方法、系统和计算机可读存储设备 | |
KR102564689B1 (ko) | 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품 | |
US11170183B2 (en) | Language entity identification | |
CN112259089A (zh) | 语音识别方法及装置 | |
JP7308903B2 (ja) | ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 | |
CN114096960A (zh) | 机器辅助代理的自然语言响应 | |
US20210326538A1 (en) | Method, apparatus, electronic device for text translation and storage medium | |
CN111695325B (zh) | 用于自然语言处理的基于解析树的向量化 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN111328416B (zh) | 用于自然语言处理中的模糊匹配的语音模式 | |
JP2023007373A (ja) | 意図識別モデルの訓練及び意図識別の方法及び装置 | |
CN112270169B (zh) | 对白角色预测方法、装置、电子设备及存储介质 | |
JP7349523B2 (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
US10811009B2 (en) | Automatic skill routing in conversational computing frameworks | |
CN109036379B (zh) | 语音识别方法、设备及存储介质 | |
US20230131494A1 (en) | Voice generating method and apparatus, electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |