CN1682518A - 音频流中电话号码的处理 - Google Patents
音频流中电话号码的处理 Download PDFInfo
- Publication number
- CN1682518A CN1682518A CNA03821475XA CN03821475A CN1682518A CN 1682518 A CN1682518 A CN 1682518A CN A03821475X A CNA03821475X A CN A03821475XA CN 03821475 A CN03821475 A CN 03821475A CN 1682518 A CN1682518 A CN 1682518A
- Authority
- CN
- China
- Prior art keywords
- number pattern
- audio stream
- pattern
- appearance
- telephone number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/274—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
- H04M1/2745—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
- H04M1/27485—Appending a prefix to or inserting a pause into a dialling sequence
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/68—Details of telephonic subscriber devices with means for recording information, e.g. telephone number during a conversation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Abstract
使用语音分析技术识别音频流中多个电话号码相关语音模式中至少一个的出现。然后识别与该出现相对应的至少一个号码模式并存储以便以后向移动设备的用户展示。可以过滤该出现和相应号码模式以减小误测的可能性。而且,可以扩充所检测到的号码模式以确保完整性。用户可以编辑并永久保存所得的号码模式。在一个实施例中,可以存储音频流的一部分,然后对其执行语音分析过程。音频流的被存储部分可以在把其中检测到的至少一个号码模式提供给用户的同时重现。以这种方式,可以可靠且便利地采集音频流中的电话号码。
Description
技术领域
本发明一般涉及无线通信系统,并且具体涉及用于处理音频流中电话号码的出现的技术。
背景技术
无线通信系统在本领域中为人熟知。在这样的系统中,典型地,系统由无线基础设施支持,无线基础设施无线地连通一台或更多无线通信设备(或移动设备),例如手机或便携式无线设备。而且,无线基础设施和其他网络之间的适当连接,例如所谓的普通老式电话系统(POTS)或互联网,允许移动设备的用户与其他未装备类似移动设备的用户群通信。一般来讲,这样的无线系统为其用户提供便利的手段来与其他运动中的人通信。
这种移动设备的便携性在某些方面具有很大优势的同时,也导致了以前未曾见过的困难。例如,在移动环境中(例如远离办公室或住宅),用户经常缺乏记录语音通信过程中所传达信息的能力。在接收用户正在接听直接由另一个用户提供的(例如在典型的语音谈话情况下)或来自存储设备的(例如语音邮件系统或电话应答机)音频信号时,这种情况经常发生,接收用户需要的电话号码出现在音频流中。除非接收用户手边恰好有某种快速记录电话号码的手段以备后用(例如一支钢笔和纸),接收用户经常不得不努力快速记住这些电话号码。在录音音频情况下,用户可以录音重放并多次听取电话号码以便记住它,尽管这样可能给用户带来不便之处。另外,这样的多次录音重放对用户来说是额外的时间费用开销。注意:重放音频的时机在典型的实况转播语音通信中并不是可选的。此外,即使用户手边确实有某种手段来记录电话号码,许多移动环境的性质也使它不允许接收用户从他或她当前的行为(例如正在开车、步行在拥挤的街道等)分心以记录电话号码或转移足够的注意力来记住这些号码。
因此,提供一种用于移动设备检测和处理音频流中所出现电话号码以采集该电话号码以备后用的技术是很有益的。这样的技术更适于以自动方式或最小限度用户输入来工作,同时仍然考虑用户干预以确保所采集电话号码的准确性。
附图说明
图1是根据本发明的一个实施例给出的无线通信系统框图。
图2是根据本发明的一个实施例给出的无线通信系统框图。
图3是根据本发明的一个实施例给出的处理音频流中电话号码技术的数据流程图。
图4是根据本发明的一个优选实施例说明一种方法的流程图。
具体实施方式
本发明提供一种技术用于处理出现在通信设备音频流中的电话号码。特别地,多个电话号码相关语音模式中至少一个的出现可以使用语音分析技术从音频流中识别出来。在一个优选实施例中,音频流包括接收到的音频流,尽管本发明也可用于由通信设备发送的音频流。与多个电话号码相关语音模式中至少一个的出现相对应的一个或更多号码模式其后都可以识别并存储以备通信设备的用户以后使用。在一个优选实施例中,该出现与相对应的一个或更多号码模式通过过滤以减小误测音频流中电话号码的可能性。而且,检测到的号码模式可以根据至少一个用户定义规则扩充或变换。以这种方式检测到(和过滤/扩充)的号码模式结果可以向用户展示,从而允许用户进一步编辑号码模式。通过把号码模式存储在永久存储器中,例如用户定义的电话号码簿,以这种方式采集的电话号码可以被重新呼叫任意次数。而且,音频流可以连续存储以便音频流中最近接收的部分可用于分析或响应用户发出的指令进行录音重放。当在这部分音频流中检测到一个或更多号码模式时,该部分可以在这一个或更多号码模式提供给用户的同时重放(即,使它能被听见),从而允许用户检验所采集电话号码的准确性。以这种方式,本发明提供一种便利可靠的机制采集音频流中的电话号码。
下面进一步结合图1-4更充分地描述本发明的这些和其他优点。现在参见图1,说明了无线通信系统100的框图。特别地,该系统100包括经由一个或更多无线信道120-122与无线基础设施106无线通信的多个无线通信设备(或移动设备)102-104。移动设备102-104,下文参照图2更详细说明,可以包括至少能接收音频流的任意无线通信设备,例如手机、双向无线电对讲机、无线个人数字助理等。尽管本发明主要应用于移动设备,它也可以应用于任意类型的通信设备,包括非移动设备,例如传统的有线电话和类似的设备。无线基础设施106包括支持这样的无线通信必要的那些组件,正如本领域中已知的,这些组件的细节将随所应用系统100的类型而变化。这样的典型组件包括基站、资源控制器、代码转换器、开关和本领域普通技术人员都知道的其他各种组件。无线信道120-122同样由所实现系统100的性质决定。但是一般来讲,无线信道120-122可以包括任何无线信道,例如射频(RF)信道、红外信道等,支持任何合适的调制协议(例如,调频、调幅等)和/或接入协议,例如频分多路复用(FDM)、时分多路复用(TDM)或码分多路复用(CDM)协议。注意:可以提供额外的无线信道124,上文描述的类型,以支持移动到移动的通信,以便移动设备102-104可以互相通信而不受无线基础设施的干扰。
如图1所示,无线基础设施106可以支持到其他通信网络108-110的连接以便其他类型的通信设备112-114可以与移动设备102-104通信。例如,正如本领域中已知的,无线基础设施106可以支持到所谓普通老式电话系统(POTS)108的连接以便传统的有线电话机112可以与移动设备102-104通信。另外,无线基础设施106可以支持与计算机网络110(例如互联网、万维网、专用网、它们的组合等)的连接以便基于计算机的平台114(例如个人电脑、笔记本电脑、掌上电脑等)也可以与移动设备102-104通信。使这种基于计算机的平台能与移动设备通信的技术在本领域中为人熟知。要进一步说明的是,根据设计选择,除了图示的网络108-110,图1中没有显示的其他网络也可以连接到无线基础设施106。
参照图2进一步说明合乎本发明的移动设备102-104。特别地,这样的移动设备包括连接到适当显示设备204、扬声器206、发射机208、接收机210和其他输入/输出设备212的控制器202。控制器202可以包括能够操作输入数据和信号并按照需要提供输出数据和信号的任何设备或者设备组合。这种控制器的各种设计在本领域内为人熟知。在一个优选实施例中,控制器202包括能够保持状态信息的设备,例如微处理器、微控制器、数字信号处理器、协处理器、可编程逻辑、专用集成电路等或它们的组合。在一些实例中,控制器可以包括一个或更多存储器件,例如适用于数据或可执行指令非永久性或永久性存储的易失性(例如随机存取存储器)或非易失性(例如电可擦写可编程只读存储器)存储器。下文描述的各种技术更适宜用可执行指令实现的软件代码段来实现。正如这里所用,这样的代码段可以包括用于执行特殊操作的一个或更多可执行指令的任何分组(即邻接的或非邻接的)。这样的代码段可以根据设计选择存储在单个存储器件或分配到几个存储器件中。尽管下文描述的特殊操作可以归结为单个这样的代码段,本领域普通技术人员很容易想到这些特殊操作可以以各种不同方式分配到几个代码段中而不损失功能性。
显示器204可以包括使移动设备用户可看见数据的任何适宜装置,例如液晶显示器(LCD)。扬声器206可以包括使移动设备用户可听到音频信号的任何适宜装置。支持显示器204(例如图像协处理器)和扬声器206(例如数模转换器)的其他设备,尽管图中没有显示,可以根据设计选择加入到该移动设备中。发射机208可以包括本领域中已知的任何合适的无线调制/放大设备。同样地,接收机210可以包括本领域中已知的任何合适的无线解调/鉴别设备。实际上,发射机208与接收机210的特别配置和操作将取决于系统100支持的无线信道和通信协议的配置。
最后,其他输入/输出设备212包括向控制器202提供信号或从控制器202获得信号的所有其他装置。例如,移动设备可以包括扩音器、触摸屏、字母数字键盘、各种按钮、软键、开关、拨号盘或本领域中已知的其他用户可操作设备。此外,可以提供一个数据端口以便各种类型的信息,包括音频流,可以直接输入到控制器202。同样地,也可以应用各种其他类型的输出设备,例如发光二极管(LED)、报警器、振荡器和类似的器件。其他输入/输出设备212的性质和外延是设计选择的问题,本发明不需要在这方面受到限制。在本发明的一个实施例中,其他输入/输出设备212包括用于向控制器提供指令以采集音频流一部分、请求号码模式显示、请求音频流的已存储部分重放以及提供对所显示号码模式编辑的装置。
现在参见图3,提供合乎本发明实施例的数据流程图。图3中说明的各功能模块300-312更适宜使用传统的编程技术以上文描述的代码段来实现。如图所示,音频流接收段300提供音频流320作为输出,音频流可以来自许多源中的任意一个。在本发明范围内,音频流可以包括代表接收自任何源的音频信号的任何信息形式。在当前的优选实施例中,音频流由移动设备经由无线信道接收,以后向移动设备的用户展示。但是实际上,该音频流可以来自任何源,包括存在于移动设备中的音频源(例如扩音器或数据端口)。另外,该音频流可以是实时语音数据,如在手机通话情况下,或者可以是存储的音频数据,如在录音消息重放情况下。无论如何,音频流320更适宜是适于语音分析段302进行语音分析的形式。如果不是适于语音分析的形式,如在一些压缩音频格式情况下,可能需要音频流接收段300或语音分析段302进行转换。
语音分析段302实现本领域内已知的语音识别技术。特别地,语音分析段302执行的语音识别优先包括与说话者无关的专用语音识别。就是说,语音分析段特别做出修改以用于识别电话号码相关语音模式(或数字发音)的出现,它出现在任意说话人提供的音频流中。正如这里所用,电话号码相关语音模式包括人类语音发音的参数表示法或其他表示法,人类语音发音一般在说电话号码或以别的可听形式传送电话号码时发生。这样的电话号码相关语音模式可以存储在合适的永久存储器中。
例如,电话号码典型地以逐字原则说出。因此,电话号码“555-123-4567”(北美一般使用10个数字)很可能说成“五,五,五,一,二,三,四,五,六,七”而不是“五十五亿五千一百二十三万四千五百六十七”或者“五百五十五,一百二十三,四千五百六十七”。但是,这种主要的逐字规则也经常有例外。例如,电话号码“800-555-1000”可以说成“八百,五,五,五,一千”。另一个例子,最后四位数字由“3452”构成的电话号码可以说成“三,四,五,六”或“三十四,五十二”。此外,某些说话者可能使用单个数字的其他表达,例如,用英文字母“O”(发音为“oh”)代替“零”。在当前的优选实施例中,提供了上文描述的多个电话号码相关语音模式类型(例如,“零”、“一”、“二”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“O”、“三十四”、“五十二”、“八百”、“一千”等)并把它们用作识别音频流中号码的出现的基本原则。因为在这种方式下语音识别的词汇量受到限制,预计可以实现以与说话者无关为原则的可靠语音识别。
在本发明的一个实施例中,语音分析段302是一个具有两个状态的状态机。在可以称为空状态的第一状态下,语音分析段302在倾听以寻找数字发音的出现。语音分析段302保持在该状态直到检测到一个数字发音,在这时候它转换到第二状态,第二状态可称为串内状态。一旦转换到串内状态,就假设检测到的数字发音位于一串数字发音的开始。当工作于串内状态时,语音分析段尝试识别满足各种标准的更多数字发音的出现以建立一串相关的数字发音。一旦满足各种标准,就输出与该数字发音串相对应的一串检测到的号码模式,且处理返回到空状态。在本发明的各种实施例中,确定一串数字发音是否已经终止可以基于数字发音检测之间经过的时间长度或者在检测到数字发音之后检测到的许多非数字发音。例如,如果检测到一个数字发音后过了大于两秒钟,可以假设该数字发音已经终止。另外,除了该技术,为了同样的目的也可以跟踪许多非数字发音。因此,例如,如果一个数字发音之后发生多于三个非数字发音,也可以假设该数字发音已经终止。根据语音识别分析的性质可以以各种方式跟踪非数字发音的个数。一般来讲,这通过识别语音的基本结构以及对该结构出现次数而不是对数字发音计数来实现。例如,非数字发音中的音节可以确定,或者甚至非数字发音中的不同音素也可以确定。在任何事件中,都要注意:这里描述的阈值仅作为示范。而且,本领域普通技术人员很容易想到用于确定一串数字发音终止的其他标准也都可以使用,例如,发音之后出现足够长时间无声。如果满足某一合适的标准,语音分析段302返回到空状态并且假设前面的数字发音串已经终止。否则,假设在时间上紧接(或者通过插入若干非数字发音而紧接)的数字发音相互关联以形成一个连续的数字发音串。
一旦检测到电话号码相关语音模式(或者一串数字发音),就识别出对应于电话号码相关语音模式的号码模式322并把它作为语音分析段302的输出。例如,当检测到对应于“八百”、“O”、“一”和“五”的语音模式时,提供数字“800”、“0”、“1”和“5”作为检测到的号码模式串。这串检测到的号码模式322(定义为一个或更多号码模式的串)更适宜作为过滤段304的输入,该过滤段对检测到的号码模式串施加一系列规则或模式以减小把该串错误地识别为电话号码的可能性。注意:这样的过滤不是必要条件,但是为了减少错误的发生它是可取的。
在当前的优选实施例中,过滤通过使检测到的号码模式串服从一个或更多过滤器规则来实现,即,检查所检测到号码模式的各种特性以了解该号码串是否与期望的或非期望的特性相匹配。这样的规则可以是预配置和静态的,也可以是用户可配置和动态的。在一个实施例中,检测到的各串号码模式的长度(就数字个数而言)与电话号码的标准长度相比较。例如,在美国和加拿大,电话号码典型地包括7个或10个数字。在其他国家,电话号码常常具有其他的传统长度。另外,一些私人交换机可能接受例如5个数字长的号码,即电话号码“576-1234”可以对内部访问本地交换的人等效表达为“6-1234”。因此,一串检测到的与这样的传统长度不匹配的特定号码模式不太可能是一个电话号码,因而被忽略。
在另一个实施例中,检查检测到的各串号码模式内容并且与基准模式比较。例如,在美国,号码“312”是一个有效的区号,而号码“311”不是。因此,10个数字的号码模式“312xxxxxxx”(其中“xxxxxxx”为有效的7个数字的任意号码)可能是一个有效的电话号码,而10个数字的号码模式“311xxxxxxx”不是一个有效的电话号码。基于区号的这种规则可以考虑所有可能的区号,或者可以仅限于特定用户可能遇到的那些区号。
在另一个与上述实施例相关的实施例中,在分析音频流(或者接收语音)时,考虑移动设备注册的地点或地区。例如,如果移动设备在美国运行,可以依照上述实施例使用一套规则。但是,如果相同的单元现在在另一个国家运行,可以依照上述实施例使用一套不同的规则。
过滤段304也可以解决所检测到号码模式串的多义性。例如,如果语音分析段302识别出发音“三十五,四十二”,则检测到的号码模式可能是“35”和“42”。但是,如果已知人们有时候表达号码的方式,该发音可以同样认为是“305402”或“3542”。为了说明这样的情况,过滤段304可以包括尝试解决这种多义性而有利于找到电话号码的规则。例如,如果电话号码“800-555-3542”表示为发音“八百,五,五,五,三十五,四十二”,检测到的号码模式串可能为“800555305402”、“80055535402”、“80055530542”或“8005553542”。在这四种可能的号码模式串中,只有最后一个与有效的10数字电话号码相称。过滤段304识别出这些可能性并自动解决多义性,有利于选择可能的与有效电话号码匹配(最接近)的结果。
关键字发音检测段(未显示)也可以包括在内,或者远离语音分析段302或过滤段304存在并与它们协同工作。本发明范围内的关键字是指时常伴随电话号码或其他类型号码的非数字发音。在电话号码相关语音模式情况下,关键字发音可以用参数表示以备语音识别算法使用。例如,单词“分机”在描述电话号码时经常使用。单词“分机”的出现在时间上紧接多个数字发音,因此对语音分析过程来说是一个暗示,单词“分机”前后出现的数字发音与同一串号码相关。而且,所得的号码模式串可以包括一个符号(例如逗号、破折号或其他记号)表示单词“分机”在这串数字发音中出现的点。相反地,其他类型的关键字常常伴随除电话号码之外的号码。例如,像“街道”、“大街”、“车道”、“林荫大道”等单词更可能伴随着居住地址(例如“312主街”)而不是电话号码。正如这些,时间上紧接这种关键字的数字发音更不可能是电话号码的一部分。相同的原则适用于州名。例如,考虑由“52主街哈佛伊利诺斯州60033”构成的音频流。数字“52”和“60033”之间出现单词“街”和“伊利诺斯州”表明该发音对应于一个居住地址而不是电话号码“526-0033”。
以这种方式使用的更多“关键字”实际上可以对应于特殊类型的发音,典型地,它们出现在人们说话暂停时,即所谓的暂停填充。例如,人们叙述电话号码时在号码之间插入“啊”或“嗯”的声音是很常见的。这种类型的发音不提供任何额外的关于特定数字发音串是否已结束的理解,从而构成语音分析过程在尝试识别数字发音串时忽略的发音类别。例如,可以建立终止标准以使这样的发音不对用来确定一串数字发音何时结束的衡量准则做出贡献。
如上文所描述,过滤段304帮助确保只检测到并采集有效的电话号码。更进一步的处理可能要使用号码模式扩充段306。扩充段306更适于操作过滤段304提供的过滤后的号码模式324,它使在说话者省略区号或只提供分机号码时可能出现的部分电话号码变得完整。其他扩充情况也是可能的。像过滤段304一样,扩充段306更适于使用一系列预配置或用户定义的规则列出各种模式与检测到的(并且可能已经过过滤)号码模式比较。如果出现与某一特定规则模式的匹配,则可以添加一个额外的号码模式到考虑中的号码模式,以便使该号码模式更完整,从而得到一个扩充号码模式326。另外,用户定义的规则可以规定一个变换以保留号码模式中的某部分,丢弃号码模式中的另一部分。
例如,在区号情况中,扩充段可以比较7数字号码模式以确定是否可以在其前添加特定的区号。在此,扩充段306可以包括出现在指定长度号码串(即7数字电话号码的前3个数字)内的某些前缀的到可能的区号的映射(预配置的或用户定义的)。例如,可以建立一个规则使形式为“576xxxx”的7数字号码模式成为在其前添加区号“847”的合适候选号码,而不同长度但也以“576”开始的号码模式可以根据另一规则以不同方式扩充。作为本概念的扩展,某些电话号码前缀在私人交换机情况下可以省略是众所周知的。例如,一个大公司可能有一个或更多机构,它们的所有7数字电话号码都以“576”或“523”前缀开始(在这两种情况下假设区号都为“847”)。在这些实例中,用户可以用5数字模式表示它们的电话号码,即“6-1234”或“3-1000”。5数字号码模式(或者根据设计选择其他长度)可以通过在其前添加适当区号和前缀号码扩充,即“6-1234”变成“847-576-1234”,“3-1000”变成“847-523-1000”。下面的表1提供上述类型映射规则各种实例的不完全列表。
号码模式
扩充
6xxxxx → 847 576 xxxx
3xxxx → 847 523 xxxx
4xxxx → 815 884 xxxx
653xxxx → 919 653 xxxx
482xxxx → 919 482 xxxx
2xx → 919 653 12xx
表1
在某些实例中,可能有多个区号或其他额外号码模式可以添加到所检测到号码模式的情况。该问题的一种解决方案是不允许存在把特定号码模式映射到不同扩充结果的冲突规则。更适宜地,当可能存在多于一个扩充时,提供两个结果,然后向用户展示供其选择。同样的技术也可以用于一个号码模式有多个可能结果的情况(即解决所检测到号码模式中的多义性),多个可能的结果与多个规则匹配。
在应用扩充规则时,扩充段306也可以考虑移动单元运行的地点或注册的区域。例如,在美国,对于移动设备的注册区号以外的区号,扩充规则可以包括添加一个“1”作为扩充号码模式的第一个数字。相反地,在美国以外运行时,可以按照当地惯例添加不同的接入号码。
检测到的(且可能已经过过滤和扩充)号码模式经由所检测到号码模式的存储段308存储。在一个优选实施例中,所检测到号码模式的存储段308把最近检测到的N个号码模式列表保存到合适的存储器件中,其中N是用户可配置的且仅受可利用存储器的数量限制。另外,存储段308可以用于把音频流330中的一部分存储到合适的存储器件中。如图所示,提供音频流采集段312发送音频流330到由存储段308实现的循环缓冲器中,它可以连续存储音频流330的最后M秒。一旦听到电话号码出现(经由未显示的音频流重放),移动设备的用户向音频流采集段312提供一个指令。作为响应,音频流采集段312指示(未显示)存储段308把循环缓冲器冻结在其当前状态。通过设计循环缓冲器的长度来规定用户听到号码并输入必要指令所花时间的平均长度,有可能确保包含电话号码的这部分音频流存在于缓冲器中。如果需要,当前被冻结缓冲器的内容可以存储到别处的永久存储器中以便可以继续更新循环缓冲器。以这种方式采集的音频部分的数目,以及该采集部分的个别持续时间和累积持续时间,必然受合适存储空间的可利用数量限制。此外,用户输入这些类型指令的方式只受合适输入设备的可利用性限制(例如其他输入/输出设备212)。
在本发明的一个实施例中,以这种方式存储的音频流部分330可以通过存储段308(由虚线指示)提供给语音分析段302进行上述分析。在这种情况下,音频流320不必连续提供给分析段302。更确切地说,只有用户认为相关的那些音频流部分在必要的时候提供给语音分析段302。
当存储了至少一个号码模式(可选地,至少音频流中的一个相应部分)时,可以应用所检测到号码的展示段310。在一个实施例中,所检测到号码的展示段310访问由存储段308保存的所检测到号码的列表并使这些检测到的号码通过合适的显示设备(例如显示器204)可视。展示段310更适于响应来自用户的指令而显示该列表,尽管该列表可以在方便的时候自动显示,例如,在当前进行的通话结束时。相似地,音频流展示段316可以使存储下来的音频流部分330可听见。在一个实施例中,个别检测到的号码模式在显示时可以有指示标志(例如图标、图形符号等)显示于此,该指示标志代表对应于所检测到号码模式的音频流已存储部分。通过选择指示标志(例如,通过按下与标记相关的按钮、软键、触摸屏区域等),与检测到的号码模式相关的音频流部分330通过音频流展示段316而可听见,以便用户可以快速检验检测到的号码模式的准确性。而且,音频流部分330可以以连续循环方式重放以便用户在检验检测到的号码模式的准确性时可以多次听到该部分。
如果用户基于该显示确定检测到的号码模式有错误,可以应用编辑段314输入编辑340到被显示的号码模式。编辑段314允许用户选择特定的被显示号码模式(例如通过加重特定的被显示号码模式)并编辑该号码模式,它提供编辑340给存储段308以更新相应的已存储号码模式。移动设备中用于接收对被显示号码的编辑的技术在本领域内为人熟知。另外,编辑段314可以向用户提供把被显示号码模式(已编辑或其他)转移到永久存储器的选项。而且,任意传统的输入机制都可以应用(例如按钮、下拉菜单、软键等)以允许用户表示转移一个号码模式到永久存储器的要求。
现在参照图4,结合本发明的一个优选实施例给出流程图。图4中流程图说明的过程可以通过上文描述的移动设备中实现的代码段来实现。在模块402处,扫描(经由语音分析)音频流查找电话号码相关语音模式的出现。如果该出现满足模块404的过滤标准,则对应于该出现的号码模式在模块406存储。如果有可能,检测到的号码模式在模块408进行扩充,然后在模块410存储。不管是否扩充了检测到的号码模式,已存储的号码模式自动或响应用户指令在模块412向移动设备的用户展示。然后在模块414,用户可以有选择地编辑任意被显示号码模式并把所选择的被显示号码模式永久地保存到存储器或者呼叫该号码,正如用户选择目前手机中普遍可以找到的“发送”按钮的情况一样。
本发明提供一种技术用于处理出现在音频流中的电话号码。通过进行音频流的语音识别分析,可以识别电话号码相关语音模式的出现并识别检测到的相应号码模式。过滤和扩充技术可以应用于检测到的号码模式以减少错误并确保完整性。提供音频流相应部分的编辑操作和采集/重放以确保准确性。以这种方式,可以便利且可靠地采集电话号码以备移动设备用户以后使用。
在前述的技术说明书中,已结合特定实施例描述了本发明。但是,本领域普通技术人员很容易想到各种修改和变化而不背离权利要求书阐明的本发明的范围。因此,认为本说明书和附图的意义在于说明而非限制,所有这样的修改都应该包括在本发明范围内。
上文已经就特殊实施例描述了益处、其他优势和问题解决方案。但是,没有把益处、其他优势、问题解决方案和可能引起益处、其他优势或解决方案发生或变得更显著的任意要素解释为决定性的、要求的或本质的特征或者任意或所有权利要求书的要素。这里所用的词语“包括、包含”或其任意其他变形都应该是非排他性的包含,因此,包括一系列要素的处理、方法、文章或装置不只包括列出的那些要素,也可能包括其他没有明确列出的或这样的处理、方法、文章或装置所固有的要素。
Claims (18)
1.在通信设备中,一种用于处理音频流中电话号码的方法,该方法包括:
识别所述音频流中多个电话号码相关语音模式中至少一个的出现;
存储与多个电话号码相关语音模式中至少一个的出现相对应的至少一个检测到的号码模式;和
向所述通信设备的用户展示所述至少一个检测到的号码模式。
2.权利要求1中的方法,所述音频流包括无线接收到的音频流。
3.权利要求1中的方法,进一步包括:
通过添加至少一个额外号码模式到所述至少一个检测到的号码模式而提供扩充号码模式;和
向用户展示所述扩充号码模式。
4.权利要求3中的方法,进一步包括:基于检测到的号码模式的一部分、检测到的号码模式的长度、所述通信设备运行地点以及所述通信设备注册区域中的至少一种来确定所述至少一个额外号码模式。
5.权利要求1中的方法,进一步包括:
忽略音频流任意两个出现的发音之间的暂停填充发音的出现。
6.权利要求1中的方法,进一步包括:
识别音频流中的关键字发音的出现,它在时间上紧接多个电话号码相关语音模式中至少一个的出现;和
当多个电话号码相关语音模式中至少一个的出现在时间上紧接关键字发音的出现时,存储与多个电话号码相关语音模式中至少一个的出现相对应的所述至少一个检测到的号码模式。
7.权利要求1中的方法,进一步包括:
使用户可听见该音频流;
响应接收自用户的指令,提供音频流的已存储部分;和
识别音频流已存储部分中的多个电话号码相关语音模式中至少一个的出现。
8.权利要求7中的方法,进一步包括:与检测到的号码模式完全同步地展示音频流的已存储部分。
9.权利要求1中的方法,进一步包括:响应接收自用户的指令,永久地存储所述检测到的号码模式。
10.权利要求1中的方法,进一步包括:
响应用户对于所述至少一个检测到的号码模式的编辑,提供编辑后的号码模式;和
响应该指令,永久地存储该编辑后的号码模式。
11.一种无线通信设备,包括:
处理器;
连接到该处理器的显示器;
连接到该处理器的存储器件;和
存储在该存储器件中的处理器可执行指令,
所述处理器可执行指令包括语音分析段,用于识别音频流中多个电话号码相关语音模式中至少一个的出现,
所述处理器可执行指令包括所检测到号码模式的存储段,用于存储与所述多个电话号码相关语音模式中至少一个的出现相对应的至少一个检测到的号码模式,
所述处理器可执行指令包括所检测到号码模式的展示段,用于通过所述显示器展示所述至少一个检测到的号码模式。
12.权利要求11中的无线通信设备,进一步包括:
无线接收机,连接到所述处理器,
所述处理器可执行指令包括音频流接收段,借此通过无线接收机接收音频流。
13.权利要求11中的无线通信设备,所述处理器可执行指令包括号码模式扩充段,用于添加至少一个额外号码模式到所述至少一个检测到的号码模式,所述所检测到号码模式的展示段借此展示由所述号码模式扩充段提供的扩充号码模式。
14.权利要求11中的无线通信设备,
所述处理器可执行指令包括关键字发音检测段,用于识别关键字发音的出现,
由此,当多个电话号码相关语音模式中至少一个的出现在时间上紧接所述关键字发音的出现时,所述所检测到号码模式的存储段存储与所述多个电话号码相关语音模式中至少一个的出现相对应的所述至少一个检测到的号码模式。
15.权利要求11中的无线通信设备,进一步包括:
用户激励的指令输入设备,连接到所述处理器;
所述处理器可执行指令包括音频流采集段,响应来自所述用户激励指令输入设备的指令,
所述语音分析段借此操作由所述音频流采集段提供的已存储音频流部分。
16.权利要求15中的无线通信设备,进一步包括:
扬声器,连接到所述处理器,
所述处理器可执行指令包括已存储音频流部分展示段,
所述所检测到号码的展示段通过显示器展示所述至少一个检测到的号码模式,与所述已存储音频流展示段通过所述扬声器展示所述已存储音频流部分完全同步。
17.一种无线通信设备,包括:
音频流接收无线接收机;
电话号码相关语音模式识别语音分析器,连接到该音频流接收无线接收机,并操作由该音频流接收无线接收机提供的音频流;
所检测到号码模式的过滤元件,连接到该电话号码相关语音模式识别语音分析器,它操作由该电话号码相关语音模式识别语音分析器提供的至少一个检测到的号码模式;和
过滤后号码模式的扩充元件,连接到所述所检测到号码模式的过滤元件。
18.权利要求17中的无线通信设备,所述所检测到号码模式的过滤元件进一步包括至少一种模式规则。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/238,559 | 2002-09-10 | ||
US10/238,559 US7174191B2 (en) | 2002-09-10 | 2002-09-10 | Processing of telephone numbers in audio streams |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1682518A true CN1682518A (zh) | 2005-10-12 |
Family
ID=31990999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA03821475XA Pending CN1682518A (zh) | 2002-09-10 | 2003-09-03 | 音频流中电话号码的处理 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7174191B2 (zh) |
EP (2) | EP1540924B1 (zh) |
CN (1) | CN1682518A (zh) |
AU (1) | AU2003263088A1 (zh) |
BR (2) | BR0313706A (zh) |
RU (1) | RU2374780C2 (zh) |
WO (1) | WO2004025931A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7979279B1 (en) * | 2003-07-17 | 2011-07-12 | At&T Intellectual Property I, Lp | System and method for monitoring communications |
KR100595610B1 (ko) * | 2003-10-29 | 2006-06-30 | 엘지전자 주식회사 | 전화번호 안내 방법 및 장치 |
DE502004005197D1 (de) * | 2004-05-11 | 2007-11-22 | Tektronix Int Sales Gmbh | Protokolltester zur Durchführung und Verfahren zur Implementierung einer Testaufgabe |
JP4367233B2 (ja) * | 2004-05-21 | 2009-11-18 | 株式会社日立製作所 | 位置検出方法、位置検出システムおよび位置検出サーバ装置 |
KR100605959B1 (ko) * | 2004-06-21 | 2006-08-02 | 삼성전자주식회사 | 음성을 이용한 번호입력방법 |
US8135390B2 (en) * | 2005-07-21 | 2012-03-13 | Xcellasave, Inc. | Method for advertising on digital cellular telephones and reducing costs to the end user |
US7251476B2 (en) * | 2004-11-01 | 2007-07-31 | Xcellasave, Inc. | Method for advertising on digital cellular telephones and reducing costs to the end user |
US7251478B2 (en) * | 2004-11-01 | 2007-07-31 | Xcellasave, Inc. | Method for advertising on digital cellular telephones and reducing costs to the end user |
US20070165609A1 (en) * | 2005-01-26 | 2007-07-19 | David Corvoysier | Method of establising calls between a telephone terminal and an ip terminal |
JP4570509B2 (ja) * | 2005-04-22 | 2010-10-27 | 富士通株式会社 | 読み生成装置、読み生成方法及びコンピュータプログラム |
US20060270465A1 (en) * | 2005-05-31 | 2006-11-30 | Matthew Lee | Wireless microphone for public safety use |
US7606856B2 (en) * | 2005-11-09 | 2009-10-20 | Scenera Technologies, Llc | Methods, systems, and computer program products for presenting topical information referenced during a communication |
US20070112571A1 (en) * | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
US8374316B2 (en) * | 2007-08-28 | 2013-02-12 | International Business Machines Corporation | System for recording spoken phone numbers during a voice call |
WO2010111144A1 (en) * | 2009-03-24 | 2010-09-30 | Research In Motion Limited | System and method for providing a circuit switched domain number |
US8935737B2 (en) | 2009-12-10 | 2015-01-13 | At&T Intellectual Property I, Lp | Apparatus and method for managing voice communications |
US8869195B2 (en) * | 2009-12-10 | 2014-10-21 | At&T Intellectual Property I, L.P. | Apparatus and method for managing voice communications |
US10395672B2 (en) | 2012-05-31 | 2019-08-27 | Elwha Llc | Methods and systems for managing adaptation data |
US10431235B2 (en) * | 2012-05-31 | 2019-10-01 | Elwha Llc | Methods and systems for speech adaptation data |
JP5242856B1 (ja) * | 2012-07-06 | 2013-07-24 | 株式会社メディアシーク | 音楽再生プログラム及び音楽再生システム |
US10163455B2 (en) * | 2013-12-03 | 2018-12-25 | Lenovo (Singapore) Pte. Ltd. | Detecting pause in audible input to device |
CN106303099B (zh) * | 2015-05-12 | 2019-06-21 | 中国移动通信集团公司 | 一种验证用户通信号码有效性的方法、装置及系统 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4959850A (en) * | 1987-05-29 | 1990-09-25 | Kabushiki Kaisha Toshiba | Radio telephone apparatus |
JP2980420B2 (ja) * | 1991-07-26 | 1999-11-22 | 富士通株式会社 | 動的計画法照合装置 |
US5504805A (en) * | 1993-04-05 | 1996-04-02 | At&T Corp. | Calling number identification using speech recognition |
US5651056A (en) * | 1995-07-13 | 1997-07-22 | Eting; Leon | Apparatus and methods for conveying telephone numbers and other information via communication devices |
US5797098A (en) * | 1995-07-19 | 1998-08-18 | Pacific Communication Sciences, Inc. | User interface for cellular telephone |
WO1997007498A1 (fr) * | 1995-08-11 | 1997-02-27 | Fujitsu Limited | Unite de traitement des signaux vocaux |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US6178338B1 (en) * | 1997-04-28 | 2001-01-23 | Sony Corporation | Communication terminal apparatus and method for selecting options using a dial shuttle |
US6580917B1 (en) * | 1997-05-27 | 2003-06-17 | Siemens Aktiengesellschaft | Mobile station for use in mobile radio systems |
US6396906B1 (en) * | 1997-09-25 | 2002-05-28 | At&T Corp. | Telephone answering system that automatically calls back a caller who has left a message |
CA2328278C (en) * | 1998-04-14 | 2010-11-16 | Robert J. Yamartino | Telephone number area code preprocessor |
US6408176B1 (en) * | 1998-07-13 | 2002-06-18 | Motorola, Inc. | Method and apparatus for initiating a communication in a communication system |
JP2000196730A (ja) * | 1998-12-25 | 2000-07-14 | Nec Saitama Ltd | 無線通信機 |
US6570964B1 (en) * | 1999-04-16 | 2003-05-27 | Nuance Communications | Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system |
US6567506B1 (en) * | 1999-12-02 | 2003-05-20 | Agere Systems Inc. | Telephone number recognition of spoken telephone number in a voice message stored in a voice messaging system |
US6735457B1 (en) * | 1999-12-23 | 2004-05-11 | Bellsouth Intellectual Property Corporation | Automatic number capture |
GB0008383D0 (en) * | 2000-04-05 | 2000-05-24 | Sontora Limited | System and method for providing an internet audio stream to a wap mobile telephone or the like over a computer nrework |
US6954657B2 (en) * | 2000-06-30 | 2005-10-11 | Texas Instruments Incorporated | Wireless communication device having intelligent alerting system |
US6529586B1 (en) * | 2000-08-31 | 2003-03-04 | Oracle Cable, Inc. | System and method for gathering, personalized rendering, and secure telephonic transmission of audio data |
AU2002215971A1 (en) * | 2000-10-28 | 2002-05-06 | Web.De Ag | Computerised device, method for operating a computerised device and computer program product |
US20020076009A1 (en) * | 2000-12-15 | 2002-06-20 | Denenberg Lawrence A. | International dialing using spoken commands |
US7386000B2 (en) * | 2001-04-17 | 2008-06-10 | Nokia Corporation | Packet mode speech communication |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
US7012999B2 (en) * | 2001-06-25 | 2006-03-14 | Bellsouth Intellectual Property Corporation | Audio caller identification |
US20030078081A1 (en) * | 2001-10-19 | 2003-04-24 | Schmier Kenneth J. | Call announcement system and method |
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
US8170197B2 (en) * | 2002-03-15 | 2012-05-01 | Intellisist, Inc. | System and method for providing automated call center post-call processing |
-
2002
- 2002-09-10 US US10/238,559 patent/US7174191B2/en not_active Expired - Lifetime
-
2003
- 2003-09-03 AU AU2003263088A patent/AU2003263088A1/en not_active Abandoned
- 2003-09-03 WO PCT/US2003/027783 patent/WO2004025931A1/en not_active Application Discontinuation
- 2003-09-03 CN CNA03821475XA patent/CN1682518A/zh active Pending
- 2003-09-03 RU RU2005110662/09A patent/RU2374780C2/ru not_active Application Discontinuation
- 2003-09-03 BR BR0313706-6A patent/BR0313706A/pt not_active IP Right Cessation
- 2003-09-03 BR BRPI0313706-6A patent/BRPI0313706B1/pt unknown
- 2003-09-03 EP EP03795651.3A patent/EP1540924B1/en not_active Expired - Fee Related
- 2003-09-03 EP EP11171523.1A patent/EP2383963B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7174191B2 (en) | 2007-02-06 |
EP1540924A1 (en) | 2005-06-15 |
WO2004025931A1 (en) | 2004-03-25 |
BRPI0313706B1 (pt) | 2019-10-08 |
RU2374780C2 (ru) | 2009-11-27 |
EP2383963A1 (en) | 2011-11-02 |
EP1540924B1 (en) | 2017-06-14 |
EP1540924A4 (en) | 2009-04-01 |
EP2383963B1 (en) | 2018-11-14 |
US20040048636A1 (en) | 2004-03-11 |
RU2005110662A (ru) | 2005-09-10 |
BR0313706A (pt) | 2005-06-28 |
AU2003263088A1 (en) | 2004-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1682518A (zh) | 音频流中电话号码的处理 | |
US20030179930A1 (en) | Korean language predictive mechanism for text entry by a user | |
US7710293B2 (en) | Method for accessing contact information | |
CN1627764A (zh) | 具有多输入设备的移动通信终端及其使用方法 | |
US20030207701A1 (en) | Method and apparatus for selecting and using numeric nicknames | |
CN101217701B (zh) | 显示呼叫者识别信息的方法装置和系统 | |
JP2008113331A (ja) | 電話システム、電話機、サーバ装置およびプログラム | |
US20030185367A1 (en) | Collective housing intercom apparatus | |
JPS6059846A (ja) | 音声認識自動ダイヤル装置 | |
KR20040014947A (ko) | 이동국에 메시지들을 선택적으로 허용하기 위한 방법 및장치 | |
CN200959624Y (zh) | 盲人通信终端 | |
CN1713124A (zh) | 便携式终端的文字输入装置及方法 | |
CN104170362B (zh) | 一种语音通信的信息交互方法和设备 | |
KR100810331B1 (ko) | 이동통신단말기에서의 전화번호 검색 방법 | |
KR100842599B1 (ko) | 휴대단말기의 발신 방법 | |
KR101605306B1 (ko) | 이동통신 단말기에서 음성을 이용한 다이얼 입력 방법 및 장치 | |
CN100403752C (zh) | 便携式电话机及其控制方法 | |
CN1630394A (zh) | 具有语音接口的移动电话 | |
KR100605807B1 (ko) | 이동통신 단말기에서 개선된 전화번호 검색 기능을제공하기 위한 장치 및 방법 | |
KR100504386B1 (ko) | 다중 검색어를 이용한 전화번호 검색 기능을 갖는이동통신 단말기 및 그 제어 방법 | |
CN1330480A (zh) | 字符输入方法及字符输入装置 | |
KR101169645B1 (ko) | 이동통신 단말기의 스마트 다이얼 방법 및 그 장치 | |
CN101593032A (zh) | 一种手机输入识别方法 | |
JP2005175721A (ja) | 電話番号検索方法及び電話帳 | |
CN1309512A (zh) | 利用移动通信设备连接到因特网域的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MOTOROLA MOBILITY CO., LTD. Free format text: FORMER OWNER: MOTOROLA INC. Effective date: 20110131 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20110131 Address after: Illinois State Applicant after: Motorola Mobility LLC Address before: Illinois Applicant before: Motorola Inc. |
|
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20051012 |